【导读】为何大模型在执行长时任务时容易出错?这引发了专家对其推理能力的质疑,担心它们是否只是提供「思考的幻觉」。近期,剑桥大学等机构的研究揭示:问题并非出在推理上,而是大模型的执行能力不足。
大模型也有「情绪时刻」。
例如,Gemini在调试Cursor中的编译错误后,进入了自责的「循环模式」,不断重复「I am a disgrace(我很丢脸)」86次。
尽管大模型在复杂推理方面取得了巨大进步,但上述现象仍使部分专家认为:
思考模型只提供「思考的幻觉」,因为当任务拉长时,它们最终会失败。
近日,剑桥大学等机构的研究对这些「翻车」现象进行了解释。研究者认为:
问题不在于大模型的推理能力,而在于其执行计划的能力。
边际收益递减的错觉:衡量大语言模型的长时程任务执行能力 https://arxiv.org/pdf/2509.09677
也就是说,大模型出现问题未必源于「思考的幻觉」,而更可能是执行阶段「打滑」了。
研究人员发现,单步准确率的小幅提升会复利式地放大你能完成的总步骤数,使任务「里程」指数级变长。
随着步骤数量增加,模型的每步准确率会下降——不仅仅是「上下文太长」,还有一个更「诡异」的现象:自条件化效应(self-conditioning)。
所谓「自条件化」,当上下文包含模型先前犯过的错,将导致它在后续过程中更容易再犯错。
业界正竞相打造能够处理整个项目而非孤立问题的智能体,随之而来的一个根本问题是:
如何度量大模型能可靠执行的步骤数量?
任务变长就失败,是因为大模型「不会推理」吗?
研究人员认为,大模型在早期多步中能正确遵循指令,说明其具备按计划执行的能力。
这也证明,大模型并非失败在推理上,而是在执行上:
随着任务变长,模型在执行计划时更可能出错。
目前,大量研究聚焦于大模型的推理能力,而对执行稳定性关注不足。
长视界任务需要大量步骤。研究人员通过以下指标评估性能:
如图2所示,模型在超过50%准确率下可执行的任务长度,在单步准确率超过70%后,随单步准确率增加而快于指数增长。
研究人员将「要做什么」(规划)和「知道什么」(知识)都喂给模型,只考它能否稳定地完成步骤。
这样就能纯粹度量LLM的长视界执行能力。
结果1:长视界执行仍然很具挑战性。
结果2:扩大模型规模的收益并不递减。
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542564.html