当前位置：首页 > 科技资讯 > 正文

Agent元年的残酷真相：多Agent协作与无限预算为何失效？

主机测评网
科技资讯
2026-03-09
606

2025年被资本市场视为“Agent元年”。诸如Manus、Lovart、Fellou等多智能体应用引发广泛关注，它们不仅自动化水平高，而且具备强大的泛化能力。肖弘提出的"More Intelligence, Less Structure"（更多智能，更少结构）理念深入人心。这些明星企业普遍采用多智能体联合架构，执行任务时需多次调用工具，导致等待时间较长。受此影响，当前Agent领域似乎形成了两大共识：其一，单智能体能力有限，多智能体协同可攻克复杂难题；其二，若预算不足，只需增加Token消耗和工具调用次数，性能便能提升。然而，UC Berkeley于12月发布的《Measuring Agents in Production》调研报告，却揭示了与明星公司叙事迥异的现实图景。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第1张

Berkeley团队深度访谈了306名一线实践者，并剖析了20个典型案例（如意大利联合圣保罗银行）。为避免偏颇，报告特意剔除了仍处概念或演示阶段的项目，仅聚焦已投入生产并创造实际价值的系统。数据显示，生产环境下的实际数据远比实验室谨慎，甚至可称为“保守派”。68%的在产Agent，其执行步骤被严格控制在10步以内；允许执行数十步的仅占16.7%，无步骤限制的只有6.7%。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第2张

为降低工具使用复杂度和风险，企业避免让Agent直接调用生产环境的原始API。开发团队通常在Agent与真实系统间设置抽象层（Wrapper APIs）。例如，若查询用户需底层调用三个接口，工程师会将其封装为一个统一接口供Agent调用，一步到位替代三步操作。80%的深度访谈案例采用“结构化控制流”，即任务流程由人工预先绘制，AI仅在既定框架内填空。数据显示，12%的已部署系统提示词长度超过10,000 tokens。所有Agent均在严格限定的、常含上万字系统提示的流水线中运行。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第3张

01 巴别塔的倒塌，More Agents ≠ Better Performance

DeepMind首篇论文通过180个受控实验配置，粉碎了“多Agent必然更强”的神话。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第4张

过去一年，架构师们曾幻想：若单一模型不够智能，便用一群模型来凑。让GPT-5扮演产品经理，Claude小队担任程序员，Gemini小队负责测试，如组建虚拟公司般，十几个博士级AI轮番上阵，何愁问题不解？然而DeepMind的论文《Towards a Science of Scaling Agent Systems》证明这纯属幻想。他们构建了Agent领域史上最大规模的实验。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第5张

实验测试了五种主流Agent架构，包括：● 单Agent系统SAS，即单一Agent完成所有任务（如ReAct架构）；● 独立多Agent架构（多个Agent并行执行相同任务，互不交流，通常用于降低幻觉）；● 去中心化多Agent架构（智能体通过A2A等协议进行点对点辩论、协商，最终汇总结果）；● 中心化Agent架构（存在一个指挥官Agent负责任务分配与结果验证）；● 混合式Agent架构（中心化与去中心化结合，执行Agent间可交流，同时受上层指挥）。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第6张

测试模型选用OpenAI、Google、Anthropic三家顶尖公司的当红产品。采用四个Agent常用基准测试评估不同组合的效果：金融分析Finance-Agent、网页浏览BrowseComp-Plus、游戏规划PlanCraft、工作流Workbench。这些因素构成超过180种组合。通过大规模科学比对，他们归纳出Agent设计的基础规律。1. 工具-协作权衡：在开放复杂任务中，单纯增加Agent数量只会导致系统“降智”。例如在类似Minecraft的PlanCraft环境中，引入多智能体协作非但未提升性能，反而使性能大幅下降，Anthropic模型在引入协作后性能暴跌35.0%。根源在于“协调税”：每个Agent需理解接口、维护上下文、处理结果，当工具数量超阈值，信息传递成本超过并行处理收益。Token消耗在阅读说明书和开会讨论上，无暇真正工作。2. 能力饱和效应：当单Agent准确率超过45%时，引入多智能体协作往往带来收益递减甚至负收益。逻辑简单：1+1=2这类问题，单Agent即可正确，三个Agent商议一天也无异。3. 错误放大拓扑：这或许是能力饱和后多Agent不仅成本高且效果更差的关键。直觉认为三个Agent投票可纠错降低错误率，但论文研究显示，在独立多Agent架构下，错误更易放大。论文用错误放大因子量化：独立多Agent架构下因子为17.2，即若单Agent错误率5%，独立多Agent系统错误率可能达86%（5%×17.2）。原因在于缺乏交叉验证机制：每个Agent基于自身推理路径得出结论，错误在各自上下文中自我强化，投票仅是拼凑三个错误答案。这便是“巴别塔效应”：三个臭皮匠，确实顶不上诸葛亮。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第7张

基于上述三条观察，DeepMind最终提出一个混合效应模型。翻译成公式大致为：最终效果 = (单体智力 + 人多力量大) - (人多的混乱程度 + 沟通的噪音 + 工具的认知负担)。若后三项的减损超过多Agent带来的增益，多智能体便会失效。论文中，该公式可根据任务属性（如工具数量、可分解性）和模型能力，以87%的准确率预测最优Agent架构。在不同复杂度任务中，各多智能体架构表现差异显著。例如PlanCraft任务全军覆没；网络检索任务优势不明显，且错误易被放大；一般办公工作中，仅去中心化模式略强，其余架构均不如单Agent。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第8张

值得注意的是，仅在金融分析这类任务中，多智能体带来了整体性提升，尤其中心式Agent架构，效果提升高达81%。这是因为金融分析任务边界清晰，SOP极为明确。例如分析任务可拆解为：读取财报→提取数据→计算比率→生成总结。每个Agent只需在既定框架内填空，无需复杂创造性规划，此时中心化多智能体优势凸显。这表明，即便当前最强LLM，也未能涌现自组织分工能力。它们仅能胜任易并行的分治（如金融分析）或基于共识的容错（如多路搜索）。而对于有协调者的中心化架构，其智商上限受限于指挥官的上下文处理能力。若不进行人为、硬编码的工具分层（即将工具分组，使不同指挥官仅关注一组），单个指挥官难以处理复杂工具库，无法下达合适指令与任务拆分。在此情况下，实现多Agent系统初衷——处理复杂长链条任务，人为编排的任务拆分SOP仍是必经之路。指望投入一群Agent使其自发进化出分层结构，至少在本篇论文中已被证伪。这也正是Anthropic近期推出Skills的意义所在：简化模型在工具使用上下文处理中的难度，使其更好执行任务拆分与验证。

02 推理的局限，More Budget ≠ Effective Scaling

既然“拼人数”走不通，那“拼耐心”是否可行？OpenAI o1发布后，Test-time Compute（推理时计算）成为热门话题。人们坚信，只要给Agent更多思考时间，让其反复搜索、推演，总能找到正确路径。实际上已有诸多论文对此证伪。但11月DeepMind另一篇论文《Budget-Aware Tool-Use Enables Effective Agent Scaling》将这一证伪更聚焦于Agent本身。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第9张

论文中，研究人员发现，若单纯增加Agent的工具调用预算（Tool-call Budget），例如将网页搜索次数从10次增至100次，其性能并不会线性提升，而是迅速触及性能天花板。例如标准ReAct Agent在预算翻倍时，准确率仅提升0.2个百分点。因为当预算为100时，模型平均仅使用14.24次搜索和1.36次浏览，剩余85%预算闲置。这说明Agent根本不自知，也不了解可用预算。当模型在错误路径上（如搜索不存在的论文标题）钻牛角尖时，它缺乏机会成本概念。即便赋予无限算力，它也仅在错误深渊中愈陷愈深。此外，模型常因上下文过长导致注意力涣散，性能甚至下降。搜索十几次后，它便迷失于自身产生的海量无效搜索结果中。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第10张

为解决此问题，DeepMind提出BATS（Budget-Aware Test-time Scaling，预算感知测试时缩放）。其核心包含两个模块：预算感知规划与预算感知验证。规划模块维护一个树状checklist，每个节点代表子任务，标注状态（待完成、已完成、失败、部分完成）及资源消耗。Agent并非一次性列出所有步骤，而是动态更新：新信息可能创建新分支、解决待定步骤、废弃无效路径。预算充足时扩大探索广度，预算紧张时深化验证深度。验证模块则用于判断当前路径是否可行。每次Agent提出答案后，验证模块进行逐条约束检查：哪些满足、哪些矛盾、哪些无法验证。基于检查结果与剩余预算，它指示智能体深挖当前路径，或及时转向新方向。该系统效果显著：BATS在BrowseComp上准确率达24.6%，较标准ReAct的12.6%提升95%；在BrowseComp-ZH上达46.0%，较31.5%提升46%。成本方面，相同准确率下，BATS的统一成本（Token消耗+工具调用）可比并行投票方案低40%以上。

Agent元年的残酷真相：多Agent协作与无限预算为何失效？ Agent 多智能体系统生产环境 DeepMind研究第11张

这篇论文有力证明：仅靠思考不够，需避免钻牛角尖，学会及时止损。

03 真正走向Agent爆发，我们还需要什么？

为何“更多Agent”与“更多预算”双双失效？DeepMind公式已指明方向：当前失败源于沟通噪音与认知负担等负分项压倒了人多力量大的正分项。这些负分项本质皆为无效上下文消耗。上下文消耗使模型无法有效调动分工与高效干预能力。要使多Agent系统真正爆发，我们无需堆砌模型数量，而应通过技术手段为上下文减负。从论文中可提炼三个必经方向：第一，有效工具管理。它能大幅降低工具认知负担，如Anthropic的Skills机制所示范，让Agent像人一样积累可复用能力模块，而非每次从零开始。当工具变为可组合技能库，工具增长不再线性推高协调成本，多Agent架构自然表现更佳。第二，内建自我验证能力。BATS验证模块之所以有效，在于它将验证形式化，提取问题中的探索约束与验证约束，逐条对照当前答案与推理轨迹，明确标注“已满足”“矛盾”“无法验证”。这非模型自发习得，而是通过prompt engineering强制实现。减少错误积累，即可减少上下文中的垃圾信息。第三，模型间高效沟通协议。当前消息密度高的根源在于Agent间使用自然语言协商，信息密度低、歧义多、需反复确认。若A2A这类结构化通信协议进化，或当下让模型在隐空间交流的实验有所突破，沟通成本将大幅下降。只有当这三个减负能力到位时，多Agent系统才能不再违背物理定律，真正发挥分工协作优势。但在那之前，无论资本市场如何定义，真正的Agent元年，其实尚未到来。

性价比服务器