随着推理大模型和思维链技术的兴起,大模型具备了「深度思考」的能力,任务的泛用性得到了显著提升。
借助思维链,大模型能够对任务进行细致分析,规划并拆解任务,从而胜任长期且复杂的任务。同时,用户也能更清晰地了解模型的推理过程,从中发现问题,并针对性地调整指令,以更高效地达成目标。
可以说,是「深度思考」的推理模型赋予了AI智能体多种辅助功能与自主能力。
然而,如今的大模型逐渐显现出偏科的倾向。为了构建更强大的智能体,对长期复杂任务能力的追求,已经影响到了大模型的推理模式。
大家在使用AI工具时是否发现,开启深度思考后,即使是简单任务也需要大量思考,展示出冗长的思维链;而关闭深度思考时,又难以获得准确的回复。
这种现象愈发明显,尤其是在大模型进入工作流(如编码工作)时,其负面效应更加显著。
就连AI领域的专家Andrej Karpathy也感受到了这种困扰,并发表了一篇长文来指出这一令人困扰的现象。
Karpathy表示,「LLM在默认状态下正变得比我的日常使用需求更具『自主代理(Agentic)』倾向,甚至超出了我的平均使用场景」。
最明显的例子是编码任务,模型现在往往会进行长时间的推理,倾向于在整个代码库中搜索文件、进行网络搜索,并对一些不完整的代码中的边缘情况过度分析、过度思考。即使在简单的查询中,也常常需要几分钟后才返回结果。
尤其在简单任务中,如快速检查脚本中的索引错误或其他低级错误时,根本不需要如此复杂的任务分析和代码处理。
因此,Karpathy不得不经常打断LLM,并用类似这样的指令限制它:「停,你想得太多了。只看这一份文件。不要用任何工具。不要过度设计。」
这带来了很多麻烦,不仅在编码任务中如此,日常使用LLM工具时类似的打断情况也越来越多。
以刚发布几天的GPT-5为例,发布时OpenAI显然意识到了深度思考的这个问题,所以他们强调GPT-5是一个集成模型,即使用时无需在不同模型间切换,它会自行决定何时需要深入思考。
但这个问题显然没有这么简单。记得当时GPT-4o模型的图像编辑生成功能很好用,但在更新到新模型后就不那么理想了。
我们给GPT-5这样的指令:「去除图中文字,把这张图变得高清一些,机器人的脸看起来更温和一些」,希望它能够调用图像编辑功能。
但它却开始「深度思考」了:
经过38秒的思考,它考虑了很多细节,但仍未能开始使用图像生成功能,导致不得不中断任务。
这或许也是用户们怀念GPT-4o的原因之一。
正如Karpathy指出的,随着默认模式逐渐向这种「超深度思考」的高代理化状态靠拢,我们反而更需要一个相反的选项——一种更直接有效的方式来表达或传达我们的意图和任务的紧迫程度,无论是「快速看一眼」还是「花30分钟彻底确认后再回来」都能精确指定。
网友们也深受「过度思考」的困扰,甚至因此回到了最朴素的使用方法。
对于这件事,Karpathy认为罪魁祸首似乎是大模型「在长周期任务上进行了大量基准测试优化」,为了在基准测试上取得更好的成绩,LLM的思考就更倾向于长周期的复杂任务实现,从而影响了普通任务的响应。
他指出了两种情境:
人类协作者能轻松区分情境1和情境2。但LLM并不知道你问的是哪一种情境。随着时间的推移、基准测试的不断「极限化」,它会越来越倾向于假设你问的是情境2。
这指出了大模型过度思考、复杂化任务的可能原因。大模型的发展不能完全以基准测试分数为追求。
关于大模型的「过度思考」,有相关经历和想法欢迎在评论区分享。
本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260439322.html