当前位置:首页 > 科技资讯 > 正文

2025年AI智能体元年?IBM专家剖析技术瓶颈与未来路径

2025年AI智能体元年?IBM专家剖析技术瓶颈与未来路径 AI智能体 自然语言交互 规划模型 成本效益 第1张

近期,IBM的播客节目《专家汇》推出了以“2025—AI智能体元年?”为主题的特别访谈。主持人Tim Hwang与IBM的三位专家——工程师Chris Hay、AI开放创新项目总监Lauren McHugh Olende以及核心AI及Watsonx.ai副总裁Volkmar Uhlig,共同深入探讨了AI智能体技术的发展现状与未来前景。值得关注的是,IBM(IBM.US)今年股价已攀升41.2%,超越纳斯达克综合指数15.2%和标普500平均13.2%的涨幅。目前IBM市值约为2829亿美元,2025年第三季度营收增长9%至163亿美元,其中基础设施板块营收增速高达17%。

专家们在讨论中提出以下核心观点:

首先,消费级智能体在短期内难以实现爆发式增长,直接面向普通用户面临挑战。现有技术还无法可靠处理现实世界中复杂、长链条的任务。此外,从智能体原型开发到大规模部署之间存在显著差距,短期内很难出现能大幅降低门槛、让非技术用户轻松创建和部署智能体的平台化解决方案。

第二,“自然语言-智能体”交互方式能否彻底绕过传统开发模式?

Volkmar Uhlig认为,最终的大众化将实现“自然语言到智能体”的直接转换。当用户能用自然语言描述复杂任务,而AI能自动将其转化为可运行智能体时,才标志智能体技术真正普及。这可以在一定程度上规避当前需要开发者参与的复杂框架构建。

但Chris Hay从实践角度发出警告,直接赋予大型语言模型过多工具调用权限容易导致其行为“失控”。因此,在可预见的未来,可靠的智能体系统仍需依赖规划模块来制定并严格执行步骤,将模型的开放创造力与任务的确定性要求相结合,这需要精心的工程设计,而非简单自然语言指令所能完全取代。

第三,智能体从概念验证扩展到规模化部署,需解决哪些关键问题?

讨论聚焦于三个层面:1.可靠性与控制:确保智能体在复杂环境中可靠执行计划而不“脱轨”或产生幻觉,需要成熟框架和“护栏”技术。2.成本效益:Volkmar Uhlig强调,智能体要替代人工或处理新任务,必须实现成本指数级下降。目前其应用仍限于高价值、高可控性任务。3.基础设施与生态:需出现能简化部署、运维和监控的“智能体云平台”,以及可能专用于规划的优化模型,以减少对昂贵前沿模型的依赖。

对于未来智能体企业格局,Lauren McHugh Olende指出当前智能体构建类似十年前的定制AI模型——每次需从头开始。未来突破可能在于出现可重复使用的“基础智能体”,或某公司通过深耕具体用例(如AWS从自身需求出发),最终抽象出通用平台。

Volkmar Uhlig则强调,主导权可能取决于两大核心能力:谁能在模型层面提供最佳推理与规划能力,以及谁能在基础设施层面实现极致成本优化,使智能体能力无处不在。

以下为「明亮公司」编译的部分访谈内容:

主持人:Lauren,我常调侃,面向消费者的智能体演示几乎千篇一律——只要说一句“帮我安排旅行”,再按一次按钮,机票、酒店、行程便瞬间订好。Volkmar 的观点是,这类场景距离现实还很遥远,甚至可能永远不会以这种形式出现。你认为我们最终能否抵达如此“一键式”的消费级体验?

又或者,正如Volkmar所暗示,由于需要封装过多细节,智能体只能隐于幕后,而无法直接面向用户?我想听听你对“智能体离普通消费者还有多远”的判断。

Lauren McHugh Olende:若将大语言模型(LLM)的发展作为参照,路径会更清晰。2017年,Transformer论文发表;2018年,BERT与GPT-1相继发布;直到2022年,ChatGPT才以网页和移动应用形式真正走进大众。可见,从“实验室突破”到“人人可用”,LLM用了约四年。

智能体目前阶段更类似2018年的LLM——已超越纯研究范畴,但尚未出现类似ChatGPT的“杀手级”封装(将智能体做成简单即用产品)。我们只有一些“BERT级”演示,可验证概念,但不足以让非技术用户随手使用。于是,核心问题变为:智能体是否也需要四年才能普及?抑或,由于资本、算力和关注度更充裕,时间会被压缩?反之,如果智能体比LLM更复杂、更难工程化,周期可能延长。

消费级智能体或受困于自然语言交互瓶颈

主持人:的确,AI领域的聚焦效应会加速下游创新。但另一个变量是“开发门槛”。Volkmar 刚才提到,让智能体真正跑通仍需大量繁琐工作,这意味着能参与的团队有限。假如我们能将“构建-部署-托管”全流程大幅简化,进步速度就会快得多。能否概述当前开发者生态现状,并指出制约其成熟的关键瓶颈?

Lauren McHugh Olende:如果你想尝试创意,现在当开发者挺有趣。在无代码层面,借助LangFlow的可视化编排能力,用户仅需拖拽组件即可构建智能体,从而避免编写大量代码后才发现数据缺失或模型语义理解偏差的风险。

再往专业代码走,LangChain、LangGraph、CrewAI、AutoGen、Semantic Kernel等工具可选,有的封装度高、上手快,有的提供全部控制权——只要想实验,工具箱已备好。

但真正挑战在于“实际部署”。如果你想在现实中部署它、带出严格控制、有精确指定用例的环境,让朋友或真实用户使用,工作复杂得多:需为智能体逻辑找托管平台,再搭建环境运行大模型推理服务,然后将两套系统集成。目前几乎没有“一键搞定”方案,部署、扩容、分享都需自行搭建技术栈,这才是最难部分。

Volkmar Uhlig:我认为这正是阻滞普及的原因之一。眼下我们缺乏“拿来即用”的智能体解决方案。真正的“Shopify时刻”尚未到来——在那个节点,任何小商家只需说一句“嘿,给我个智能体”,它就能立即运行。

我们IBM内部已在试验:将流程和业务描述直接从自然语言转为LangFlow可执行文件。一旦实现“用自然语言描述问题就能自动生成智能体”,而使用者无需编程知识,它就能走向大众。那时,人们可在手机上随口说“我到家时让灯亮”,系统便立刻生成对应自动化逻辑,而不必自行搭建流程。

当前界面本质是“婴儿程序员接口”——为会写代码者设计的初级工具,所以普通消费者不会接触。既然业务逻辑可用自然语言讲清,而大模型已足够聪明补全细节,我们就该将“英语→智能体”做得像今天“英语→代码”一样成熟。一旦实现,智能体就会迎来大众可消费时刻。但目前的接口仍面向程序员,而非消费者。

主持人:没错。这个愿景几乎绕过了“是否还需要庞大开发者生态”的问题,听起来很有启发性。

Volkmar Uhlig:显而易见,历史模板就是Shopify。2000年代初,人们惊叹“原来可在互联网上运行自己的服务器”,于是有人靠它做成十亿美元公司;随后Shopify出来说“我们把它大众化了”。智能体领域还未到这一步——它仍是高科技,未大众化。但只要有人将整套流程封装成“一键即用”,复杂度下降10倍甚至100倍,市场就会像野火一样蔓延。关键在于:智能体的“Shopify时刻”还未到来,而谁先做到这一点,谁就能点燃全局。

生产级别智能体需要先规划后执行,及确定性框架

主持人:在这两种路径之间似乎存在一些矛盾。一种是Volkmar你说的“自然语言生成智能体”。如果我们把它做得非常强大,那么在某种程度上你几乎不需要构建很多像Lauren所说的那种部署基础设施。

Chris,现在有很多构建智能体原型的方法,但一旦你想做任何更复杂的事情或扩展它,就很困难。你是否觉得目前需要什么来让这方面成熟起来?我们还在等待那些能实现这一点的公司和平台吗?

Chris Hay:是的,我认同这一观点。从概念验证(POC)或最小可行产品(MVP)走向规模化之所以困难,在于消费者行为难以预测。一旦想将大模型直接面向消费者,就必须加装“护栏”——要么引入防护模型,要么辅以确定性流程,确保其不偏离轨道。

正如Volkmar提到的“文本转规划”,目前主流工具(如Claude Code、Cursor、Windsurf 等)都内置规划器:遇到复杂请求时,先由规划模块生成执行计划,模型再按部就班完成任务。年初提到的Manus也是如此——任务先经规划智能体拆解,再由执行智能体逐条落实。

这种“先规划、后执行”的设计是必要的。若一次性给大模型开放数百个工具,它往往会“见工具就用”,极易失控。以Kimi k2为例,其支持连续调用两三百个工具,能力虽强,却常因“什么都想调用”而偏离主线,最终脱轨。

即便已有执行计划,模型也可能依赖自身记忆、跳过工具调用,或忘记更新进度,仅凭“感觉”给出答案,导致幻觉。换言之,它会在未经查证的情况下自信地输出结果,造成错误累积。

因此,当系统需要严格按步骤执行时,必须引入确定性框架,防止模型跳步或漏步。然而,这类生产级框架目前仍需开发者自行搭建,并非开箱即用。未来,若智能体要大规模落地,这些框架必须被集成到平台或下沉到模型层,才能真正降低使用门槛。

未来智能体竞争力在于流程可复制与成本效益

主持人:在最后几分钟,我想谈谈我们一直在讨论的技术上需要发生什么才能让2026年成为真正的“智能体之年”。我的问题是,从平台的角度来看,智能体领域的赢家会是AI领域的赢家吗?会是OpenAI、Anthropic这类前沿模型商,还是手握算力与渠道的云巨头?谁处于有利地位?

Volkmar Uhlig:要回答谁更可能赢,先得厘清两层难题。

第一层是“用什么模型”。Chris刚才提到,现有大模型一旦拿到几百个工具就极易脱轨——我曾让模型调用某API,API返回异常,它竟自行写个空stub并宣布“任务完成”。想避免这种“什么都不做也算成功”的幻觉,目前只能依赖前沿模型的稠密推理能力,成本自然居高不下。我认为明年可能会看到人们专门构建“规划模型”,它专注于一件事——把规划做对,当然底层还要有模型来执行计划且不脱轨。目前我认为我们还没做到这点。

所以我觉得前沿模型是目前唯一出路,也伴随巨大成本。我们会看到更小的模型专责规划。

第二个问题是“如何执行、在哪里执行”。我的信念,也是我们的产品理念,是“AI无处不在”。并非把所有H100或H200堆在数据中心就万事大吉;智能体将遍布手机、边缘设备、云侧和本地数据中心。

关键是谁先让智能体做到“成本可负担”。今天,葡萄牙的许多商业流程仍靠人工逐条完成,我们希望智能体接手这些重复劳动,让人去做更高价值工作;同时,把智能体部署到那些原本无人处理或做得不好的环节,提供更多服务选择。这本质是一场成本优化竞赛。

因此,底层需要一整套高效运行的基础设施,把单任务成本压低10-100倍。现阶段,智能体只敢用在高价值、劳动密集且场景封闭的可控环节——我能同时让几千人干活,也能在后台放一个可观测智能体。一旦模型更强大、成本更低,智能体就会像水电一样无处不在。

主持人:我赞同这种市场切分方式:一边是让前沿模型公司把“智能体能力”内生化,另一边是围绕成本效率诞生的全新生态。前者固然可能涉足后者,但两者商业逻辑和玩家或许完全不同。Lauren,你如何判断未来智能体市场格局?会出现一个万能模型一统天下,还是其他形态?

Lauren McHugh Olende:谁能率先把流程做成“可复制”,谁就能赢。今天的智能体构建像极了十年前的传统AI——很酷,却要每次从零开始:想预测教育结果,就得找数据、专项训练、微调、打包;换一件事,整套流程重新来过。智能体更痛苦,因为它的“重新来过”不只是写代码,而是反复调试自然语言提示——要让模型偶尔调用工具、偶尔不调用,还要以更高质量方式调用。

传统AI的拐点来自基础模型:一个大规模预训练模型因为见多识广,可以胜任多种任务。倘若我们也能定义出类似的“基础智能体”,把通用规划与执行能力一次性预置好,后续只需微调或配置即可适应不同场景,就能省去每次从零搭提示的磨损。这才是让智能体市场从手工作坊走向平台规模的关键。

主持人:那么,你认为最终胜出的仍会是今天的头部玩家吗?只要他们把模型再打磨打磨,就能摇身变成“基础智能体”平台?

Lauren McHugh Olende:我反而觉得,它不会是某个单一模型,而是多模型的编排,外加一些限制和控制机制。至于是现有领导者,还是一匹黑马,我现在无法判断。可能出现的路径是:有人先做一个非常具体的智能体,只解决一件事,却做到极致;随后把其中的模块、代码或架构复用到第二个、第三个场景,就像AWS最初只为内部电商服务,后来发现整套云基础设施也能对外支撑无数业务。

所以,我认为有一类玩家专注于做好一个用例,最初他们可能因为“只用AI做一件事”而被低估,但他们一旦找到可重复的扩展模式,反而可能演化出最像平台的产品。