伯克利加州大学近期发布了一篇重要论文《Measuring Agents in Production》。
(论文地址:https://arxiv.org/pdf/2512.04123)
该研究基于全球真实数据:对306名从业者深入调研,分析20个企业级部署案例,覆盖26个行业。
这是AI Agent领域目前最大规模的实证研究。
核心发现包括:
报告内容详实,以下逐步解析。
一个重要数据:
73%的从业者指出,部署Agent的主要目标是“提高生产力”。
其他动机也很实际:63.6%是为了减少人工工时,50%旨在自动化常规任务。
相比之下,难以量化的收益如“风险规避”(12.1%)和“加速故障响应”(18.2%),关注度较低。
这表明,Agent落地优先考虑直接、可量化的场景,而质性改进目前处于次要地位。
从应用场景看,Agent已超越代码生成或聊天机器人,深入关键商业流程。
金融与银行业占比最高,达39.1%,其次是科技(24.6%)和企业服务(23.2%)。
此外,Agent还在多个领域落地:
保险理赔自动化:Agent处理从保单查询到风险识别的全流程。
生物医学工作流自动化:Agent用于执行复杂实验和数据分析。
企业内部运营支持:涵盖人力资源搜索、站点故障诊断等。
这些跨行业案例证明,AI Agent能解决现实复杂问题,创造实际商业价值。
在实际业务中,Agent角色类似“超级实习生”。
92.5%的Agent直接服务人类用户,其中52.2%面向企业内部员工。
为何主要用于内部?因为错误可控且便于监控。仅7.5%的Agent服务其他软件系统,全自动Agent交互尚不成熟。
与常见误解不同,Agent响应速度并非首要考虑。生产中,66%的系统允许分钟级或更长响应时间。
原因简单:相比人类需数小时或数天,Agent几分钟仍显著提升效率。这让团队能聚焦输出质量和可靠性,而非追求极限低延迟。
与学术追求复杂自主Agent不同,生产级AI Agent遵循“大道至简”原则。
从业者选择简单、可控、可维护的技术路径,以最大化系统可靠性。这一务实工程理念体现在模型选型、技术实现、架构和框架使用中。
模型选择上,闭源占主导。
20个深度案例中,85%(17个)使用闭源模型,Anthropic的Claude系列和OpenAI的GPT系列是首选。
选择闭源的核心是效率。对于辅助专家(如医生、高级工程师)的Agent,推理成本远低于人力成本,因此团队倾向最强模型。
开源模型更多作为特定场景补充。仅在严格约束下,团队才选择开源模型,常见情况包括:
成本效益:大规模、高推理场景下,自托管开源模型成本优势明显。
数据隐私:受法规或政策限制,敏感数据无法外传时,开源模型成为唯一选择。
技术路径上,从业者倾向简单、迭代快的方法:避免微调,专注Prompt。
78%的系统采用全手动或手动+AI辅助方式构建Prompt。Prompt可能很长,12%超过10,000个Token。
这显示从业者更信任手写规则,而非自动优化工具(如DSPy)。
为降低不可控性,生产级Agent自主性被严格限制。
68%的系统在需人工干预前,执行步骤不超过10步,47%少于5步。
限制原因:
保证可靠性:步数越多,错误累积风险越高;
控制成本:API调用产生费用;
控制延迟:每多一步,用户等待时间增加;
因此,80%的案例采用预定义静态工作流。例如保险Agent流程固定:查询保障 -> 审查必要性 -> 识别风险。Agent只能在既定流程决策,不能创新步骤。
另一有趣现象:问卷调查中,60%的人愿用第三方框架(如LangChain),但实际案例中85%的团队选择自研,直接调模型API。
原因:减少依赖臃肿,获得完全控制权。
这种定制化偏好表明企业级Agent系统成熟:从通用框架向深度集成、定制编排引擎演进,这些系统成为关键任务基础,需现有工具无法提供的控制水平。
基准测试参考价值有限。
其中,75%的团队完全不用基准测试。因为企业业务独特,公开学术榜单无参考价值。
剩余25%的团队从零构建自定义基准。
这种情况下,人工循环验证(Human-in-the-loop)是主导评估方法,74.2%的从业者采用。
开发阶段,领域专家直接审查输出正确性、安全性和可靠性。例如,医疗专家验证医疗保健Agent的诊断建议是否符合临床标准。
运行阶段,人类作为最终决策者,基于Agent建议行动,充当安全护栏。例如,站点修复工程师根据Agent生成的故障报告决定修复操作。
另一评估方法:自动化评估(LLM-as-a-Judge)。典型流程:
1. Agent生成输出。
2. “裁判”LLM评估输出,给出置信度分数。
3. 高分输出自动接受,低分输出转人工审查。
4. 专家定期抽查高分输出,监控“裁判”LLM表现,形成闭环反馈。
虽多人使用此方法,但无人完全信任。
51.6%的团队用LLM当裁判,但所有团队都结合人工验证。典型做法:LLM评分,高分自动通过,低分转人工;同时人工定期抽查高分样本。
可靠性是首要难题:37.9%的人将“核心技术问题”(可靠性、鲁棒性)列为主要挑战,远超合规性(17.2%)和治理问题(3.4%)。
为何困难?
基准难建:数据稀缺、成本高、高度定制;
测试难做:Agent非确定性使传统单元测试失效;
反馈慢:错误可能数月后才显现;
相比可靠性,安全与合规性问题较次要。因常通过“约束设计”解决。常见“约束设计”有四种:
1.限制修改操作:严格限制Agent仅读取数据,界面控制生产状态。例如,站点可靠性(SRE)Agent可分析日志生成报告,但修复操作由人类工程师执行。
2.沙盒环境:将Agent部署在与生产隔离的沙盒中。Agent在沙盒内生成并测试代码或配置变更,验证通过后同步到生产系统。
3.限制抽象层:在Agent和生产工具间构建API封装层。该层只公开必要功能,隐藏内部细节,限制Agent潜在破坏范围。
4.权限控制:尝试让Agent继承用户访问权限。但实践中仍有挑战,因Agent调用工具时可能绕过或遇到权限不一致问题。
报告揭示核心悖论:可靠性是最大挑战,为何系统能上线?
答案:“约束性部署”(Constrained Deployment)。具体模式包括:
环境约束:将Agent部署于内部网络或与生产隔离的沙盒,杜绝直接破坏风险。
自主性约束:将Agent行为限在少于10步的预定义工作流内,避免长期自主探索导致的不可预测行为和错误累积。
人工监督:专家置于决策关键节点,作为输出最终验证者和执行者,构成最后安全防线。
另一重要启示:仅用现有前沿大模型和简单提示工程技术,就可在26多个行业创造可观、可量化商业价值。
这意味着企业无需等待AGI,通过现有技术解决明确、可控业务问题,就能显著提升生产力。
本文由主机测评网于2026-02-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260223511.html