当前位置:首页 > 科技资讯 > 正文

AgentFlow框架:在推理流中优化智能体系统

【导读】传统智能体系统在稳定性和学习能力之间面临挑战,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,实现了小规模模型在多项任务中的卓越表现,为AI发展开辟新路径。

当前AI Agent的发展正陷入两难境地:

一方面,训练全能型大模型虽具一体化优势,但在长链推理中常出现训练不稳定、扩展性受限的问题;

另一方面,基于prompt的智能体系统虽灵活,却缺乏学习与自我优化能力。

如何突破这一瓶颈?

斯坦福大学联合德州农工大学、加州大学圣地亚哥分校和Lambda的研究团队给出了新答案:让智能体系统在推理流中进行在线强化学习,实现持续的自我提升与能力进化

AgentFlow框架:在推理流中优化智能体系统 AgentFlow 在线强化学习 长链推理 模块化架构 第1张

他们提出的AgentFlow框架采用模块化架构,通过四个专门化智能体协同工作,配合专门设计的Flow-GRPO算法,使系统能在真实交互环境中持续优化决策策略。

AgentFlow框架:在推理流中优化智能体系统 AgentFlow 在线强化学习 长链推理 模块化架构 第2张

实验结果显示,仅7B参数的AgentFlow在搜索、数学、科学等多个任务上全面超越GPT-4o(约200B参数)和Llama-3.1-405B。

团队负责人在推特上分享了工作,获得了广泛关注。

AgentFlow框架:在推理流中优化智能体系统 AgentFlow 在线强化学习 长链推理 模块化架构 第3张

AgentFlow框架:在推理流中优化智能体系统 AgentFlow 在线强化学习 长链推理 模块化架构 第4张

AgentFlow框架:在推理流中优化智能体系统 AgentFlow 在线强化学习 长链推理 模块化架构 第5张

AgentFlow框架:在推理流中优化智能体系统 AgentFlow 在线强化学习 长链推理 模块化架构 第6张

该工作目前已登上HuggingFace Paper日榜第二名,成为周最火Huggingface项目。

AgentFlow框架:在推理流中优化智能体系统 AgentFlow 在线强化学习 长链推理 模块化架构 第7张

AgentFlow框架:在推理流中优化智能体系统 AgentFlow 在线强化学习 长链推理 模块化架构 第8张

长链推理中的信用分配难题

训练智能体系统面临的核心挑战是长链推理中的多轮信用分配问题:如何在长时跨度、奖励稀疏的环境中准确判断每一步决策对最终结果的贡献?

AgentFlow框架:在推理流中优化智能体系统 AgentFlow 在线强化学习 长链推理 模块化架构 第9张

AgentFlow多模块实时交互,在「流」中学习

AgentFlow的设计思路是将复杂的推理任务分解给专门化的智能体模块,同时让核心决策模块在交互中持续学习。

四模块协同架构

  • " + ":分析任务需求,制定执行策略,选择最合适的工具。这是系统的核心决策模块。
  • " + ":负责实际调用工具API,整合工具返回结果。" + ":基于系统累积的历史记忆,评估中间结果是否符合任务目标和约束条件。" + ":整合所有信息和验证反馈,生成最终答案或下一步行动建议。" + "
" + "

Flow-GRPO算法,解决信用分配问题

" + "

实验结果:小模型的逆袭

" + "

消融实验的关键发现

" + "

技术意义与未来展望

" + "

参考资料:

" + "

https://arxiv.org/abs/25" + "

" + "