当前位置：首页 > 科技资讯 > 正文

AI Agent新战场：中训练范式引领变革

主机测评网
科技资讯
2026-05-04
486

随着AI竞争的焦点从跑分比拼转向Agent任务完成能力，2025年的AI界正迎来一场根本性的转变。从xAI到Anthropic，行业巨头纷纷强调其产品的自主完成复杂长程任务的能力。这背后，一个清晰的共识正在形成：AI的下一战场，是通用Agent。

然而，现实却显得颇为骨感。除了编程领域，Agent的落地应用寥寥无几。核心瓶颈之一在于反馈机制的困境：要让预训练模型蜕变为强大Agent，必须通过与世界互动获得反馈来学习。但现有的反馈机制，要么太弱，要么太贵。

2025年10月，Meta等机构发表的论文《Agent Learning via Early Experience》提出了一种新的解决方案——“中训练”范式，试图为Agent训练搭建关键桥梁。

01 两条主流路径的困境

在深入了解Meta的解决方案之前，我们先要理解当前的反馈困境。目前主流的Agent后训练方法有两种，但其反馈形式各有难以克服的“昂贵”代价。

AI Agent新战场：中训练范式引领变革中训练 Agent 反馈机制早期经验第1张

第一种方法是模仿学习，也就是监督微调（SFT）。

它依赖于一种“昂贵的静态反馈”，让Agent像学生背课文一样，去模仿人类专家的操作演示数据。然而，高质量的专家数据难以大规模生产，且只告诉模型“应该怎么做”，却从不教它“不这么做会有什么后果”，导致模型学不到自身行为与环境结果之间的因果联系。

第二种方法是强化学习（RL），它依赖于一种“复杂的动态反馈”。

它让Agent通过环境返回的奖励（reward）信号进行试错学习。然而，在许多真实世界的复杂任务中，奖励信号要么缺失，要么非常稀疏和延迟，导致训练极其困难和低效。

结果就是一个尴尬困局：简单的不够强，强大的用不了。

02 “中训练”范式：弥合之桥

Meta的这篇论文提出了名为“早期经验”的“中训练”范式，试图构建一座跨越模仿学习与强化学习之间鸿沟的“弥合之桥”。

它基于一个巧妙洞察：Agent自己探索产生的状态变化本身就是宝贵的学习信号。

这个思想很直接：既然专家数据不够用，奖励数据太稀缺，为什么不让Agent从自己的“试错”中学习？即便没有奖励，Agent每次行动后环境发生的状态变化就是一种极具价值、可扩展且免费的监督信号。

为了将这一理念落地，研究者们设计了两种具体、可操作的训练策略：隐式世界建模和自我反思。

AI Agent新战场：中训练范式引领变革中训练 Agent 反馈机制早期经验第2张

隐式世界建模 (IWM)的逻辑是让Agent学会预测“如果我这么做，世界会变成什么样？”。具体步骤包括：自我尝试、记录数据、微调训练预测能力。

自我反思 (SR)的逻辑是让Agent学会解释“为什么专家的做法比我的其他想法更好”。具体步骤包括：自我尝试、教练点评、微调训练预思考能力。

AI Agent新战场：中训练范式引领变革中训练 Agent 反馈机制早期经验第3张

AI Agent新战场：中训练范式引领变革中训练 Agent 反馈机制早期经验第4张

两种方法殊途同归，都是让Agent从自己的行为后果中学习，无需外部奖励就能获得丰富的监督信号。

03 为什么需要这座桥？

这个看似简单的想法为什么如此有效？答案来自今年AI领域的一个重要理论发现。

谷歌DeepMind今年在ICML发表的研究《通用Agent包含世界模型》证明了一个关键结论：所有能够成功处理复杂、多步骤任务的Agent，内部都必须拥有某种“世界模型”，也就是对环境运行规律的准确理解。

AI Agent新战场：中训练范式引领变革中训练 Agent 反馈机制早期经验第5张

“早期经验”正是在补这堂关键的课。通过让Agent大量观察“如果我这样做会怎样”，它开始建立起对世界的因果理解。有了这种理解作为基础，无论是提升泛化能力，还是为后续强化学习做准备，都变得水到渠成。

04 参数效率的ScalingLaw

“早期经验”的成功还附带着展示出了另一条ScalingLaw的可能性。

Test Time Compute（测试时计算）是由GPTo1掀起的一个新范式。它本质上是通过延长推理阶段的计算深度来增加模型能力。而在“早期经验”这个例子中，通过大量的自我递归和反思训练，一个700M参数的小模型在某些任务上超越了比自己大十几倍参数量的大模型。

AI Agent新战场：中训练范式引领变革中训练 Agent 反馈机制早期经验第6张

AI Agent新战场：中训练范式引领变革中训练 Agent 反馈机制早期经验第7张

“早期训练”的成功，正是用一种极致的、只有两层的神经网络，揭示了这条ScalingLaw的可行性。

性价比vps 性价比服务器高防服务器

本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260542547.html

AI Agent新战场：中训练范式引领变革

01 两条主流路径的困境

02 “中训练”范式：弥合之桥

03 为什么需要这座桥？

04 参数效率的ScalingLaw

OpenAI资本棋局：AI永动机背后的商业逻辑与挑战

新能源汽车购置税新规：技术门槛升级，市场格局重塑

AI Agent新战场：中训练范式引领变革

01 两条主流路径的困境

02 “中训练”范式：弥合之桥

03 为什么需要这座桥？

04 参数效率的ScalingLaw

OpenAI资本棋局：AI永动机背后的商业逻辑与挑战

新能源汽车购置税新规：技术门槛升级，市场格局重塑

相关文章