当前位置：首页 > 科技资讯 > 正文

AI的混乱未来：长程任务的挑战与自救

主机测评网
科技资讯
2026-07-03
165

近来，众多论文纷纷聚焦于Agent面临的严峻挑战。

这些困境并非空穴来风。在应用层面，一旦脱离如Skill这类辅助工具，Agent在处理现实世界中的长期任务时显得极不可靠。

这些困境可归结为两大原因。

首要原因是上下文的黑洞。正如腾讯首席AI科学家姚顺雨及其混元团队通过CL Bench所揭示，模型可能无法透彻理解复杂上下文，因而难以准确执行任务。

第二个原因更为致命，即长期规划的崩塌。这意味着，当任务步骤增多时，模型的表现会急剧下降，犹如醉酒之人，行走虽稳两步，却难以维持十步之直。

Anthropic的研究人员在1月末发表了一篇题为《The Hot Mess of AI》（AI的一团乱麻）的论文，试图解析这一问题的根源。他们的研究发现，这一尝试为自回归模型（尤其是基于Transformer的模型）明确指出了其软肋。

AI的混乱未来：长程任务的挑战与自救 AI困境长期规划崩塌不连贯性自回归模型第1张

Yann Lecun常提“自回归模型仅擅长Next Token Prediction（下一个词预测），因而无法实现理解与AGI”。此前，这仅是一种判断或信仰，缺乏实证证据。而该论文提供了一些实证依据。

此外，该论文预示了一个令人担忧的现实：即模型虽变得更强大、更智能，但混乱并未减少。

01 能力的幻觉与错误的真相

这似乎与“每7个月AI编程任务处理时长翻倍”的摩尔定律相悖。然而，在SWE-bench等编程测试中，前沿模型持续刷新纪录，代码愈发冗长，修复的Bug愈发棘手。

AI的混乱未来：长程任务的挑战与自救 AI困境长期规划崩塌不连贯性自回归模型第2张

因此，直觉告诉我们：模型愈强，处理复杂长期任务的能力愈强，AGI指日可待。然而，Anthropic的论文更关注模型在长期任务中的错误来源。

为探究此问题，研究团队引入了统计学中的经典工具——偏差-方差分解（Bias-Variance Decomposition）。

作者主要利用KL散度分解来量化这两个指标。他们通过多次采样获取模型对同一问题的多个回答样本，并计算模型的平均预测。偏差衡量的是模型的“平均预测”与“真实结果”之间的距离；而方差衡量的是模型“每次具体预测”与其“平均预测”之间的距离的期望值。

此比喻犹如打靶：如果你的枪法稳定但错误（偏差），则为系统错误；如果你的手抖得厉害且错误随机（方差），则为不可预测的错误。

AI的混乱未来：长程任务的挑战与自救 AI困境长期规划崩塌不连贯性自回归模型第3张

作者提出了一个核心指标：不连贯性（Incoherence），即总错误中由“方差”导致的比例。这一指标用于衡量AI失败是由于知识不足（偏差）还是由于随机性（方差）。

实验结果显示：任务越长，AI的随机性越大；模型越大，在难题上的不连贯性越高。

AI的混乱未来：长程任务的挑战与自救 AI困境长期规划崩塌不连贯性自回归模型第4张

这表明，模型的错误来源发生了质变：从知识不足转变为随机性错误。单纯扩大模型规模无法消除这种内在随机性。

02 自回归的原罪

为何我们打造的超级大脑最终会变成一个掷骰子的赌徒？论文给出了一个基于物理视角的解释：即动力系统（Dynamical Systems）与优化器（Optimizers）的本质冲突。

当前的LLM本质上是自回归的，基于当前状态预测下一个状态。而我们期望的Agent是一个优化器，设定远期目标并最小化损失函数。这两者的差异在数学上几乎无法调和。

“在所有动力系统的集合中，能够表现得像一个固定损失函数的优化器的子集，其测度为零。”这是一个数学上的判决。

实验证明，即使为了优化器而训练自回归模型，模型规模的扩大也只能提高认知准确性，却无法让行为更稳定。

AI的混乱未来：长程任务的挑战与自救 AI困境长期规划崩塌不连贯性自回归模型第5张

当自回归模型执行长任务时，它实际上是在一个广阔无垠的动力系统世界中走钢丝。随着模型变大，状态空间呈指数级膨胀，每一步的微小随机扰动都会被长链条推理不断放大。

03 死缓后的自救

虽然文章似乎为自回归模型通向AGI判了死缓，但并非没有解决之道。

第一条路是集成（Ensembling）。既然单个模型的单次推理充满随机性，那就让它多跑几次。实验表明，集成是降低不连贯性的有效手段。

AI的混乱未来：长程任务的挑战与自救 AI困境长期规划崩塌不连贯性自回归模型第6张

第二条路是系统2的思考（System 2 Reasoning）。增加推理预算确实能略微降低不连贯性。然而，单纯让模型长时间思考是不够的，必须有结构化的思维过程或更强的纠错模式。

第三条路是超越Token的新范式。例如，Meta提出的Large Concept Model (LCM)以及Yann LeCun倡导的世界模型。这些模型基于高维、抽象的概念或目标表征进行规划，从而更容易保持长程任务的连贯性。

04 知道所有道理，仍然过不好这一生

打破了“Scale is all you need”的迷梦，揭示了正确率曲线下的熵增危机。

它警示我们：若不对架构进行本质改变、不对推理过程引入严格的纠错和约束，我们打造的强大模型将如神经病患者般在不经意间犯错。

AGI的终极挑战或许不在于让其变得多聪明，而在于在漫长的思考和行动中保持清醒。

性价比服务器阿里云服务器性价比vps

本文由主机测评网于2026-07-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260748538.html

AI的混乱未来：长程任务的挑战与自救

01

能力的幻觉与错误的真相

02

自回归的原罪

03

死缓后的自救

04

知道所有道理，仍然过不好这一生

从《Her》到“来福电台”：AI音频的陪伴之路

AI产品成功背后的秘密：设计比技术更重要

AI的混乱未来：长程任务的挑战与自救

01

能力的幻觉与错误的真相

02

自回归的原罪

03

死缓后的自救

04

知道所有道理，仍然过不好这一生

从《Her》到“来福电台”：AI音频的陪伴之路

AI产品成功背后的秘密：设计比技术更重要

相关文章