当前位置:首页 > 科技资讯 > 正文

AI的混乱未来:长程任务的挑战与自救

近来,众多论文纷纷聚焦于Agent面临的严峻挑战。

这些困境并非空穴来风。在应用层面,一旦脱离如Skill这类辅助工具,Agent在处理现实世界中的长期任务时显得极不可靠。

这些困境可归结为两大原因。

首要原因是上下文的黑洞。正如腾讯首席AI科学家姚顺雨及其混元团队通过CL Bench所揭示,模型可能无法透彻理解复杂上下文,因而难以准确执行任务。

第二个原因更为致命,即长期规划的崩塌。这意味着,当任务步骤增多时,模型的表现会急剧下降,犹如醉酒之人,行走虽稳两步,却难以维持十步之直。

Anthropic的研究人员在1月末发表了一篇题为《The Hot Mess of AI》(AI的一团乱麻)的论文,试图解析这一问题的根源。他们的研究发现,这一尝试为自回归模型(尤其是基于Transformer的模型)明确指出了其软肋。

AI的混乱未来:长程任务的挑战与自救 AI困境 长期规划崩塌 不连贯性 自回归模型 第1张

Yann Lecun常提“自回归模型仅擅长Next Token Prediction(下一个词预测),因而无法实现理解与AGI”。此前,这仅是一种判断或信仰,缺乏实证证据。而该论文提供了一些实证依据。

此外,该论文预示了一个令人担忧的现实:即模型虽变得更强大、更智能,但混乱并未减少

01

能力的幻觉与错误的真相

这似乎与“每7个月AI编程任务处理时长翻倍”的摩尔定律相悖。然而,在SWE-bench等编程测试中,前沿模型持续刷新纪录,代码愈发冗长,修复的Bug愈发棘手。

AI的混乱未来:长程任务的挑战与自救 AI困境 长期规划崩塌 不连贯性 自回归模型 第2张

因此,直觉告诉我们:模型愈强,处理复杂长期任务的能力愈强,AGI指日可待。然而,Anthropic的论文更关注模型在长期任务中的错误来源。

为探究此问题,研究团队引入了统计学中的经典工具——偏差-方差分解(Bias-Variance Decomposition)

作者主要利用KL散度分解来量化这两个指标。他们通过多次采样获取模型对同一问题的多个回答样本,并计算模型的平均预测。偏差衡量的是模型的“平均预测”与“真实结果”之间的距离;而方差衡量的是模型“每次具体预测”与其“平均预测”之间的距离的期望值。

此比喻犹如打靶:如果你的枪法稳定但错误(偏差),则为系统错误;如果你的手抖得厉害且错误随机(方差),则为不可预测的错误。

AI的混乱未来:长程任务的挑战与自救 AI困境 长期规划崩塌 不连贯性 自回归模型 第3张

作者提出了一个核心指标:不连贯性(Incoherence),即总错误中由“方差”导致的比例。这一指标用于衡量AI失败是由于知识不足(偏差)还是由于随机性(方差)。

实验结果显示:任务越长,AI的随机性越大;模型越大,在难题上的不连贯性越高。

AI的混乱未来:长程任务的挑战与自救 AI困境 长期规划崩塌 不连贯性 自回归模型 第4张

这表明,模型的错误来源发生了质变:从知识不足转变为随机性错误。单纯扩大模型规模无法消除这种内在随机性。

02

自回归的原罪

为何我们打造的超级大脑最终会变成一个掷骰子的赌徒?论文给出了一个基于物理视角的解释:即动力系统(Dynamical Systems)与优化器(Optimizers)的本质冲突

当前的LLM本质上是自回归的,基于当前状态预测下一个状态。而我们期望的Agent是一个优化器,设定远期目标并最小化损失函数。这两者的差异在数学上几乎无法调和。

“在所有动力系统的集合中,能够表现得像一个固定损失函数的优化器的子集,其测度为零。”这是一个数学上的判决。

实验证明,即使为了优化器而训练自回归模型,模型规模的扩大也只能提高认知准确性,却无法让行为更稳定。

AI的混乱未来:长程任务的挑战与自救 AI困境 长期规划崩塌 不连贯性 自回归模型 第5张

当自回归模型执行长任务时,它实际上是在一个广阔无垠的动力系统世界中走钢丝。随着模型变大,状态空间呈指数级膨胀,每一步的微小随机扰动都会被长链条推理不断放大。

03

死缓后的自救

虽然文章似乎为自回归模型通向AGI判了死缓,但并非没有解决之道。

第一条路是集成(Ensembling)。既然单个模型的单次推理充满随机性,那就让它多跑几次。实验表明,集成是降低不连贯性的有效手段。

AI的混乱未来:长程任务的挑战与自救 AI困境 长期规划崩塌 不连贯性 自回归模型 第6张

第二条路是系统2的思考(System 2 Reasoning)。增加推理预算确实能略微降低不连贯性。然而,单纯让模型长时间思考是不够的,必须有结构化的思维过程或更强的纠错模式。

第三条路是超越Token的新范式。例如,Meta提出的Large Concept Model (LCM)以及Yann LeCun倡导的世界模型。这些模型基于高维、抽象的概念或目标表征进行规划,从而更容易保持长程任务的连贯性。

04

知道所有道理,仍然过不好这一生

打破了“Scale is all you need”的迷梦,揭示了正确率曲线下的熵增危机。

它警示我们:若不对架构进行本质改变、不对推理过程引入严格的纠错和约束,我们打造的强大模型将如神经病患者般在不经意间犯错。

AGI的终极挑战或许不在于让其变得多聪明,而在于在漫长的思考和行动中保持清醒。