当前位置：首页 > 科技资讯 > 正文

大模型长时任务挑战：执行与自条件化效应解析

【导读】为何大模型在执行长时任务时容易出错？这引发了专家对其推理能力的质疑，担心它们是否只是提供「思考的幻觉」。近期，剑桥大学等机构的研究揭示：问题并非出在推理上，而是大模型的执行能力不足。

大模型也有「情绪时刻」。

例如，Gemini在调试Cursor中的编译错误后，进入了自责的「循环模式」，不断重复「I am a disgrace（我很丢脸）」86次。

尽管大模型在复杂推理方面取得了巨大进步，但上述现象仍使部分专家认为：

思考模型只提供「思考的幻觉」，因为当任务拉长时，它们最终会失败。

近日，剑桥大学等机构的研究对这些「翻车」现象进行了解释。研究者认为：

问题不在于大模型的推理能力，而在于其执行计划的能力。

大模型长时任务挑战：执行与自条件化效应解析大模型长时任务执行能力自条件化第1张

边际收益递减的错觉：衡量大语言模型的长时程任务执行能力 https://arxiv.org/pdf/2509.09677

也就是说，大模型出现问题未必源于「思考的幻觉」，而更可能是执行阶段「打滑」了。

研究人员发现，单步准确率的小幅提升会复利式地放大你能完成的总步骤数，使任务「里程」指数级变长。

随着步骤数量增加，模型的每步准确率会下降——不仅仅是「上下文太长」，还有一个更「诡异」的现象：自条件化效应（self-conditioning）。

所谓「自条件化」，当上下文包含模型先前犯过的错，将导致它在后续过程中更容易再犯错。

任务变长就失败，只因模型不会推理？

业界正竞相打造能够处理整个项目而非孤立问题的智能体，随之而来的一个根本问题是：

如何度量大模型能可靠执行的步骤数量？

大模型长时任务挑战：执行与自条件化效应解析大模型长时任务执行能力自条件化第2张

任务变长就失败，是因为大模型「不会推理」吗？

研究人员认为，大模型在早期多步中能正确遵循指令，说明其具备按计划执行的能力。

这也证明，大模型并非失败在推理上，而是在执行上：

随着任务变长，模型在执行计划时更可能出错。

目前，大量研究聚焦于大模型的推理能力，而对执行稳定性关注不足。

长视界任务需要大量步骤。研究人员通过以下指标评估性能：

步骤准确率（Step Accuracy）：度量在第i-1步到第i步的状态更新是否正确的样本占比；
轮次准确率（Turn Accuracy）：一轮是与模型的一次交互，可能需要执行多个步骤。轮次准确率度量在第t-1轮到第t轮的状态更新是否正确的样本占比；
轮次复杂度（K）（Turn Complexity）：定义为模型每轮必须执行的步骤数；
任务准确率（Task Accuracy）：度量模型在执行i个步骤的过程中不犯任何错误、从而完成任务的样本占比；
视界长度（Hs）（Horizon Length）：给定成功率阈值0 ≤ s ≤ 1。将模型的视界长度定义为模型在第i个步骤处的平均任务准确率降到低于概率s的位置。

大模型长时任务挑战：执行与自条件化效应解析大模型长时任务执行能力自条件化第3张