当前位置:首页 > 科技资讯 > 正文

Agent元年:现实与理想的碰撞

2025年,被资本市场视作「Agent元年」,这一年,Manus、Lovart、Fellou等多Agent应用备受瞩目。它们凭借高度自动化和强大的泛化能力,深深吸引了行业眼球。肖弘提出的“More Intelligence, Less Structure”理念更是深入人心。

这些明星公司多采用多Agent联合架构,尽管它们能高效完成任务,但往往需要多次工具调用,导致较长的等待时间。然而,UC Berkeley发布的《Measuring Agents in Production》报告揭示了一个截然不同的平行宇宙。

Agent元年:现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈 第1张

Berkeley团队调研了306位一线从业者和20个深度案例,排除了处于Demo阶段的项目,只关注已部署上线且产生真实价值的系统。结果显示,生产环境的真实数据比实验室数据保守得多。

68%的生产级Agent执行步骤被严格限制在10步以内,仅16.7%允许数十步,无限制的仅占6.7%。

Agent元年:现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈 第2张

为了简化工具使用并降低风险,企业通常会在Agent和真实环境间构建抽象层(Wrapper APIs),一步替代三步。

80%的访谈案例使用了「结构化控制流」,这意味着AI在既定框架内工作。

论文数据显示,12%的已部署系统Prompt长度超过10,000 Tokens。所有Agent都在冗长的System Prompt中运行。

目前的成功案例可视为「拥有阅读理解能力的实习生」,被塞进严格的SOP流程中。相比于SaaS,它能理解模糊意图,但灵活性有限。

为何现实如此骨感?

DeepMind的两篇论文为Berkeley报告中的惨状提供了病理剖析。它们直接证伪了Agent社区的两个核心假设。

实验和数据证明,模型自我涌现的魔法时代尚未到来,我们仍停留在依赖硬编码和强管控的工程时代。

Agent元年:现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈 第3张

巴别塔的倒塌:多Agent未必带来更好性能

DeepMind的第一篇论文通过180个受控实验配置打破了「多Agent必然更强」的神话。

架构师们曾幻想:既然一个模型不够聪明,就组建一个虚拟团队。但DeepMind的论文《Towards a Science of Scaling Agent Systems》证明这仅是幻想。

Agent元年:现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈 第4张

实验测试了五种主流Agent架构,包括单Agent系统、独立多Agent架构等。使用OpenAI、Google、Anthropic的顶尖产品,通过四个基准测试不同组合的效果。

发现:

  • 工具-协作权衡:增加Agent数量会“降智”,如Anthropic模型在引入协作后性能暴跌35%。
  • 能力饱和效应:单Agent准确率超过45%时,多Agent协作带来收益递减甚至负收益。
  • 错误放大拓扑:独立多Agent架构下错误更容易放大,如错误率从5%提升到86%。

Agent元年:现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈 第5张

在金融分析任务中,多智能体带来整体提升,尤其是中心式Agent架构。这说明目前最强的LLM尚未涌现出自组织分工能力。

推理的局限:更多预算未必有效扩展

增加工具调用预算并不会带来性能线性增长。DeepMind的论文《Budget-Aware Tool-Use Enables Effective Agent Scaling》聚焦于此。

Agent元年:现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈 第6张

研究发现,增加预算并不会带来性能提升。例如标准ReAct Agent在预算翻倍时准确率仅提升0.2个百分点。

这说明Agent无法有效管理自己的预算和路径。

DeepMind提出了BATS(Budget-Aware Test-time Scaling),通过预算感知规划和验证模块提高性能。

走向Agent爆发:我们还需要什么?

DeepMind的公式指明了出路:通过技术手段给上下文减负。

  • 有效工具管理:减少工具的认知负担,如Anthropic的Skills机制。
  • 内建自我验证能力:如BATS的验证模块。
  • 模型间高效沟通协议:减少沟通成本,如A2A结构化通信协议。

只有当这些减负能力到位时,多Agent系统才能发挥真正的潜力。