当前位置：首页 > 科技资讯 > 正文

Agent元年：现实与理想的碰撞

主机测评网
科技资讯
2026-06-01
319

2025年，被资本市场视作「Agent元年」，这一年，Manus、Lovart、Fellou等多Agent应用备受瞩目。它们凭借高度自动化和强大的泛化能力，深深吸引了行业眼球。肖弘提出的“More Intelligence, Less Structure”理念更是深入人心。

这些明星公司多采用多Agent联合架构，尽管它们能高效完成任务，但往往需要多次工具调用，导致较长的等待时间。然而，UC Berkeley发布的《Measuring Agents in Production》报告揭示了一个截然不同的平行宇宙。

Agent元年：现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈第1张

Berkeley团队调研了306位一线从业者和20个深度案例，排除了处于Demo阶段的项目，只关注已部署上线且产生真实价值的系统。结果显示，生产环境的真实数据比实验室数据保守得多。

68%的生产级Agent执行步骤被严格限制在10步以内，仅16.7%允许数十步，无限制的仅占6.7%。

Agent元年：现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈第2张

为了简化工具使用并降低风险，企业通常会在Agent和真实环境间构建抽象层（Wrapper APIs），一步替代三步。

80%的访谈案例使用了「结构化控制流」，这意味着AI在既定框架内工作。

论文数据显示，12%的已部署系统Prompt长度超过10,000 Tokens。所有Agent都在冗长的System Prompt中运行。

目前的成功案例可视为「拥有阅读理解能力的实习生」，被塞进严格的SOP流程中。相比于SaaS，它能理解模糊意图，但灵活性有限。

为何现实如此骨感？

DeepMind的两篇论文为Berkeley报告中的惨状提供了病理剖析。它们直接证伪了Agent社区的两个核心假设。

实验和数据证明，模型自我涌现的魔法时代尚未到来，我们仍停留在依赖硬编码和强管控的工程时代。

Agent元年：现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈第3张

巴别塔的倒塌：多Agent未必带来更好性能

DeepMind的第一篇论文通过180个受控实验配置打破了「多Agent必然更强」的神话。

架构师们曾幻想：既然一个模型不够聪明，就组建一个虚拟团队。但DeepMind的论文《Towards a Science of Scaling Agent Systems》证明这仅是幻想。

Agent元年：现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈第4张

实验测试了五种主流Agent架构，包括单Agent系统、独立多Agent架构等。使用OpenAI、Google、Anthropic的顶尖产品，通过四个基准测试不同组合的效果。

发现：

工具-协作权衡：增加Agent数量会“降智”，如Anthropic模型在引入协作后性能暴跌35%。
能力饱和效应：单Agent准确率超过45%时，多Agent协作带来收益递减甚至负收益。
错误放大拓扑：独立多Agent架构下错误更容易放大，如错误率从5%提升到86%。

Agent元年：现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈第5张

在金融分析任务中，多智能体带来整体提升，尤其是中心式Agent架构。这说明目前最强的LLM尚未涌现出自组织分工能力。

推理的局限：更多预算未必有效扩展

增加工具调用预算并不会带来性能线性增长。DeepMind的论文《Budget-Aware Tool-Use Enables Effective Agent Scaling》聚焦于此。

Agent元年：现实与理想的碰撞 Agent 多Agent系统 DeepMind 性能瓶颈第6张

研究发现，增加预算并不会带来性能提升。例如标准ReAct Agent在预算翻倍时准确率仅提升0.2个百分点。

这说明Agent无法有效管理自己的预算和路径。

DeepMind提出了BATS（Budget-Aware Test-time Scaling），通过预算感知规划和验证模块提高性能。

走向Agent爆发：我们还需要什么？

DeepMind的公式指明了出路：通过技术手段给上下文减负。

有效工具管理：减少工具的认知负担，如Anthropic的Skills机制。
内建自我验证能力：如BATS的验证模块。
模型间高效沟通协议：减少沟通成本，如A2A结构化通信协议。

只有当这些减负能力到位时，多Agent系统才能发挥真正的潜力。

云服务器服务器教程性价比服务器

本文由主机测评网于2026-06-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260646895.html

Agent元年：现实与理想的碰撞

巴别塔的倒塌：多Agent未必带来更好性能

推理的局限：更多预算未必有效扩展

走向Agent爆发：我们还需要什么？

L3级自动驾驶驶入新阶段：正式号牌发放，商业化应用初露端倪

2026网络安全新篇章：AI驱动的数字信任与风险防控

Agent元年：现实与理想的碰撞

巴别塔的倒塌：多Agent未必带来更好性能

推理的局限：更多预算未必有效扩展

走向Agent爆发：我们还需要什么？

L3级自动驾驶驶入新阶段：正式号牌发放，商业化应用初露端倪

2026网络安全新篇章：AI驱动的数字信任与风险防控

相关文章