当前位置：首页 > 科技资讯 > 正文

DeepSeek-V3.2的token浪费问题：算法偏见与优化挑战

DeepSeek-V3.2模型近期成为人工智能领域的热点，但用户反馈揭示了一个持续存在的效率问题。

这一问题核心在于token消耗过高，尤其是在处理复杂查询时。

DeepSeek-V3.2的token浪费问题：算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法长度偏见第1张

图片来源：x@Hangslin

许多社区用户指出，DeepSeek-V3.2的长思考版本Speciale确实以开源形式对闭源顶级模型构成了竞争压力，但其缺陷也相当明显。

当面对复杂任务时，该模型往往需要消耗更多的token资源，有时甚至产生冗长但错误的输出。

例如，在相同问题解决中，Gemini仅使用2万token，而Speciale却需要7.7万token。

DeepSeek-V3.2的token浪费问题：算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法长度偏见第2张

这背后的原因是什么？

未被修正的“长度偏见”问题

研究人員表示，这一现象源自DeepSeek-R1-Zero以来系列模型固有的一个技术漏洞。

DeepSeek-V3.2的token浪费问题：算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法长度偏见第3张

简而言之，问题根源在于GRPO算法设计。

来自Sea AI Lab和新加坡国立大学等机构的研究学者认为，GRPO算法存在两种隐性偏差。

长度偏见：错误答案的长度越长，所受到的惩罚反而越轻。

GRPO在计算奖励时，会将“答案长度”纳入考量，导致简短错误答案受到更严厉的处罚。

其结果就是：模型倾向于生成“冗长而错误”的答案，表面上看似在进行细致推理，实质上是通过增加字数来规避惩罚。

难度偏见：过于简单或过于困难的题目受到过度关注。

GRPO依据“同一批题目得分的标准差”来调整权重。例如，一道题所有人都答对（标准差小），或所有人都答错（标准差也小），这道题会被视为“重点”反复训练；而中等难度、部分答对部分答错的题目（标准差大），反而被忽视。然而在实际训练过程中，中等难度的题目才是提升模型能力的关键。

该项研究的核心作者Zichen Liu指出，DeepSeek-V3.2已经通过新的优势值计算方法，修正了“难度偏见”（如下图所示红框部分）。

但模型仍然保留了有偏差的长度规范项（如下图所示蓝框部分）。也就是说，“长度偏见”问题依然存在。

DeepSeek-V3.2的token浪费问题：算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法长度偏见第4张

事实上，DeepSeek官方报告也提到了这一问题。

技术报告中，DeepSeek研究人员坦言，token效率对DeepSeek-V3.2来说仍是一个挑战：通常情况下，最新发布的两个模型需要生成更长的推理轨迹，才能达到Gemini-3.0-Pro的输出质量水平。

而DeepSeek-V3.2-Speciale模型本身，也是特意放宽了强化学习的长度限制，允许模型生成极长的思维链，使模型能够通过大量消耗token进行深度自我修正和探索。

这可谓是一条“在超长上下文环境下持续扩展强化学习”的技术路径。

考虑到百万token级别的输出成本，DeepSeek-V3.2的价格仅为GPT-5的1/24，这一缺陷似乎尚在可接受范围内。

此外，也有网友提到，DeepSeek的128K上下文长度已长时间未更新。这与GPU资源限制不无关系。

DeepSeek-V3.2的token浪费问题：算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法长度偏见第5张

您是否已经体验了DeepSeek-V3.2？欢迎在评论区分享您的使用感受和见解~

[1]https://x.com/zzlccc/status/1995770284385992798

[2]https://api-docs.deepseek.com/news/news251201

本文由主机测评网于2026-02-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260222311.html