【导读】传统智能体系统在稳定性和学习能力之间面临挑战,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,实现了小规模模型在多项任务中的卓越表现,为AI发展开辟新路径。
当前AI Agent的发展正陷入两难境地:
一方面,训练全能型大模型虽具一体化优势,但在长链推理中常出现训练不稳定、扩展性受限的问题;
另一方面,基于prompt的智能体系统虽灵活,却缺乏学习与自我优化能力。
如何突破这一瓶颈?
斯坦福大学联合德州农工大学、加州大学圣地亚哥分校和Lambda的研究团队给出了新答案:让智能体系统在推理流中进行在线强化学习,实现持续的自我提升与能力进化。
他们提出的AgentFlow框架采用模块化架构,通过四个专门化智能体协同工作,配合专门设计的Flow-GRPO算法,使系统能在真实交互环境中持续优化决策策略。
实验结果显示,仅7B参数的AgentFlow在搜索、数学、科学等多个任务上全面超越GPT-4o(约200B参数)和Llama-3.1-405B。
团队负责人在推特上分享了工作,获得了广泛关注。
该工作目前已登上HuggingFace Paper日榜第二名,成为周最火Huggingface项目。
训练智能体系统面临的核心挑战是长链推理中的多轮信用分配问题:如何在长时跨度、奖励稀疏的环境中准确判断每一步决策对最终结果的贡献?
AgentFlow的设计思路是将复杂的推理任务分解给专门化的智能体模块,同时让核心决策模块在交互中持续学习。
参考资料:
" + "" + "本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260543841.html