当前位置：首页 > 科技资讯 > 正文

大模型“深度思考”双刃剑：效率与复杂性并存

随着推理大模型和思维链技术的兴起，大模型具备了「深度思考」的能力，任务的泛用性得到了显著提升。

借助思维链，大模型能够对任务进行细致分析，规划并拆解任务，从而胜任长期且复杂的任务。同时，用户也能更清晰地了解模型的推理过程，从中发现问题，并针对性地调整指令，以更高效地达成目标。

可以说，是「深度思考」的推理模型赋予了AI智能体多种辅助功能与自主能力。

然而，如今的大模型逐渐显现出偏科的倾向。为了构建更强大的智能体，对长期复杂任务能力的追求，已经影响到了大模型的推理模式。

大家在使用AI工具时是否发现，开启深度思考后，即使是简单任务也需要大量思考，展示出冗长的思维链；而关闭深度思考时，又难以获得准确的回复。

这种现象愈发明显，尤其是在大模型进入工作流（如编码工作）时，其负面效应更加显著。

就连AI领域的专家Andrej Karpathy也感受到了这种困扰，并发表了一篇长文来指出这一令人困扰的现象。

大模型“深度思考”双刃剑：效率与复杂性并存大模型深度思考自主代理任务优化第1张

Karpathy表示，「LLM在默认状态下正变得比我的日常使用需求更具『自主代理（Agentic）』倾向，甚至超出了我的平均使用场景」。

最明显的例子是编码任务，模型现在往往会进行长时间的推理，倾向于在整个代码库中搜索文件、进行网络搜索，并对一些不完整的代码中的边缘情况过度分析、过度思考。即使在简单的查询中，也常常需要几分钟后才返回结果。

尤其在简单任务中，如快速检查脚本中的索引错误或其他低级错误时，根本不需要如此复杂的任务分析和代码处理。

因此，Karpathy不得不经常打断LLM，并用类似这样的指令限制它：「停，你想得太多了。只看这一份文件。不要用任何工具。不要过度设计。」

这带来了很多麻烦，不仅在编码任务中如此，日常使用LLM工具时类似的打断情况也越来越多。

以刚发布几天的GPT-5为例，发布时OpenAI显然意识到了深度思考的这个问题，所以他们强调GPT-5是一个集成模型，即使用时无需在不同模型间切换，它会自行决定何时需要深入思考。

但这个问题显然没有这么简单。记得当时GPT-4o模型的图像编辑生成功能很好用，但在更新到新模型后就不那么理想了。

我们给GPT-5这样的指令：「去除图中文字，把这张图变得高清一些，机器人的脸看起来更温和一些」，希望它能够调用图像编辑功能。

但它却开始「深度思考」了：

大模型“深度思考”双刃剑：效率与复杂性并存大模型深度思考自主代理任务优化第2张

经过38秒的思考，它考虑了很多细节，但仍未能开始使用图像生成功能，导致不得不中断任务。

这或许也是用户们怀念GPT-4o的原因之一。

正如Karpathy指出的，随着默认模式逐渐向这种「超深度思考」的高代理化状态靠拢，我们反而更需要一个相反的选项——一种更直接有效的方式来表达或传达我们的意图和任务的紧迫程度，无论是「快速看一眼」还是「花30分钟彻底确认后再回来」都能精确指定。

网友们也深受「过度思考」的困扰，甚至因此回到了最朴素的使用方法。

大模型“深度思考”双刃剑：效率与复杂性并存大模型深度思考自主代理任务优化第3张

大模型“深度思考”双刃剑：效率与复杂性并存大模型深度思考自主代理任务优化第4张

对于这件事，Karpathy认为罪魁祸首似乎是大模型「在长周期任务上进行了大量基准测试优化」，为了在基准测试上取得更好的成绩，LLM的思考就更倾向于长周期的复杂任务实现，从而影响了普通任务的响应。

大模型“深度思考”双刃剑：效率与复杂性并存大模型深度思考自主代理任务优化第5张

他指出了两种情境：

人类协作者能轻松区分情境1和情境2。但LLM并不知道你问的是哪一种情境。随着时间的推移、基准测试的不断「极限化」，它会越来越倾向于假设你问的是情境2。

这指出了大模型过度思考、复杂化任务的可能原因。大模型的发展不能完全以基准测试分数为追求。

关于大模型的「过度思考」，有相关经历和想法欢迎在评论区分享。

本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260439322.html