AgentFlow框架：在推理流中优化智能体系统

【导读】传统智能体系统在稳定性和学习能力之间面临挑战，斯坦福等学者提出AgentFlow框架，通过模块化和实时强化学习，在推理中持续优化策略，实现了小规模模型在多项任务中的卓越表现，为AI发展开辟新路径。

当前AI Agent的发展正陷入两难境地：

一方面，训练全能型大模型虽具一体化优势，但在长链推理中常出现训练不稳定、扩展性受限的问题；

另一方面，基于prompt的智能体系统虽灵活，却缺乏学习与自我优化能力。

如何突破这一瓶颈？

斯坦福大学联合德州农工大学、加州大学圣地亚哥分校和Lambda的研究团队给出了新答案：让智能体系统在推理流中进行在线强化学习，实现持续的自我提升与能力进化。

AgentFlow框架：在推理流中优化智能体系统 AgentFlow 在线强化学习长链推理模块化架构第1张

他们提出的AgentFlow框架采用模块化架构，通过四个专门化智能体协同工作，配合专门设计的Flow-GRPO算法，使系统能在真实交互环境中持续优化决策策略。

AgentFlow框架：在推理流中优化智能体系统 AgentFlow 在线强化学习长链推理模块化架构第2张

实验结果显示，仅7B参数的AgentFlow在搜索、数学、科学等多个任务上全面超越GPT-4o（约200B参数）和Llama-3.1-405B。

团队负责人在推特上分享了工作，获得了广泛关注。

AgentFlow框架：在推理流中优化智能体系统 AgentFlow 在线强化学习长链推理模块化架构第3张

AgentFlow框架：在推理流中优化智能体系统 AgentFlow 在线强化学习长链推理模块化架构第4张

AgentFlow框架：在推理流中优化智能体系统 AgentFlow 在线强化学习长链推理模块化架构第5张

AgentFlow框架：在推理流中优化智能体系统 AgentFlow 在线强化学习长链推理模块化架构第6张

该工作目前已登上HuggingFace Paper日榜第二名，成为周最火Huggingface项目。

AgentFlow框架：在推理流中优化智能体系统 AgentFlow 在线强化学习长链推理模块化架构第7张

AgentFlow框架：在推理流中优化智能体系统 AgentFlow 在线强化学习长链推理模块化架构第8张

长链推理中的信用分配难题

训练智能体系统面临的核心挑战是长链推理中的多轮信用分配问题：如何在长时跨度、奖励稀疏的环境中准确判断每一步决策对最终结果的贡献？

AgentFlow框架：在推理流中优化智能体系统 AgentFlow 在线强化学习长链推理模块化架构第9张

AgentFlow的设计思路是将复杂的推理任务分解给专门化的智能体模块，同时让核心决策模块在交互中持续学习。

" + "

" + "

" + "

" + "

" + "

参考资料：

" + "

" + "