随着AI竞争的焦点从跑分比拼转向Agent任务完成能力,2025年的AI界正迎来一场根本性的转变。从xAI到Anthropic,行业巨头纷纷强调其产品的自主完成复杂长程任务的能力。这背后,一个清晰的共识正在形成:AI的下一战场,是通用Agent。
然而,现实却显得颇为骨感。除了编程领域,Agent的落地应用寥寥无几。核心瓶颈之一在于反馈机制的困境:要让预训练模型蜕变为强大Agent,必须通过与世界互动获得反馈来学习。但现有的反馈机制,要么太弱,要么太贵。
2025年10月,Meta等机构发表的论文《Agent Learning via Early Experience》提出了一种新的解决方案——“中训练”范式,试图为Agent训练搭建关键桥梁。
在深入了解Meta的解决方案之前,我们先要理解当前的反馈困境。目前主流的Agent后训练方法有两种,但其反馈形式各有难以克服的“昂贵”代价。
第一种方法是模仿学习,也就是监督微调(SFT)。
它依赖于一种“昂贵的静态反馈”,让Agent像学生背课文一样,去模仿人类专家的操作演示数据。然而,高质量的专家数据难以大规模生产,且只告诉模型“应该怎么做”,却从不教它“不这么做会有什么后果”,导致模型学不到自身行为与环境结果之间的因果联系。
第二种方法是强化学习(RL),它依赖于一种“复杂的动态反馈”。
它让Agent通过环境返回的奖励(reward)信号进行试错学习。然而,在许多真实世界的复杂任务中,奖励信号要么缺失,要么非常稀疏和延迟,导致训练极其困难和低效。
结果就是一个尴尬困局:简单的不够强,强大的用不了。
Meta的这篇论文提出了名为“早期经验”的“中训练”范式,试图构建一座跨越模仿学习与强化学习之间鸿沟的“弥合之桥”。
它基于一个巧妙洞察:Agent自己探索产生的状态变化本身就是宝贵的学习信号。
这个思想很直接:既然专家数据不够用,奖励数据太稀缺,为什么不让Agent从自己的“试错”中学习?即便没有奖励,Agent每次行动后环境发生的状态变化就是一种极具价值、可扩展且免费的监督信号。
为了将这一理念落地,研究者们设计了两种具体、可操作的训练策略:隐式世界建模和自我反思。
隐式世界建模 (IWM)的逻辑是让Agent学会预测“如果我这么做,世界会变成什么样?”。具体步骤包括:自我尝试、记录数据、微调训练预测能力。
自我反思 (SR)的逻辑是让Agent学会解释“为什么专家的做法比我的其他想法更好”。具体步骤包括:自我尝试、教练点评、微调训练预思考能力。
两种方法殊途同归,都是让Agent从自己的行为后果中学习,无需外部奖励就能获得丰富的监督信号。
这个看似简单的想法为什么如此有效?答案来自今年AI领域的一个重要理论发现。
谷歌DeepMind今年在ICML发表的研究《通用Agent包含世界模型》证明了一个关键结论:所有能够成功处理复杂、多步骤任务的Agent,内部都必须拥有某种“世界模型”,也就是对环境运行规律的准确理解。
“早期经验”正是在补这堂关键的课。通过让Agent大量观察“如果我这样做会怎样”,它开始建立起对世界的因果理解。有了这种理解作为基础,无论是提升泛化能力,还是为后续强化学习做准备,都变得水到渠成。
“早期经验”的成功还附带着展示出了另一条ScalingLaw的可能性。
Test Time Compute(测试时计算)是由GPTo1掀起的一个新范式。它本质上是通过延长推理阶段的计算深度来增加模型能力。而在“早期经验”这个例子中,通过大量的自我递归和反思训练,一个700M参数的小模型在某些任务上超越了比自己大十几倍参数量的大模型。
“早期训练”的成功,正是用一种极致的、只有两层的神经网络,揭示了这条ScalingLaw的可行性。
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542547.html