当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.2的token浪费问题:算法偏见与优化挑战

DeepSeek-V3.2模型近期成为人工智能领域的热点,但用户反馈揭示了一个持续存在的效率问题。

这一问题核心在于token消耗过高,尤其是在处理复杂查询时。

DeepSeek-V3.2的token浪费问题:算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第1张

图片来源:x@Hangslin

许多社区用户指出,DeepSeek-V3.2的长思考版本Speciale确实以开源形式对闭源顶级模型构成了竞争压力,但其缺陷也相当明显。

当面对复杂任务时,该模型往往需要消耗更多的token资源,有时甚至产生冗长但错误的输出。

例如,在相同问题解决中,Gemini仅使用2万token,而Speciale却需要7.7万token。

DeepSeek-V3.2的token浪费问题:算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第2张

这背后的原因是什么?

未被修正的“长度偏见”问题

研究人員表示,这一现象源自DeepSeek-R1-Zero以来系列模型固有的一个技术漏洞。

DeepSeek-V3.2的token浪费问题:算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第3张

简而言之,问题根源在于GRPO算法设计。

来自Sea AI Lab和新加坡国立大学等机构的研究学者认为,GRPO算法存在两种隐性偏差。

长度偏见:错误答案的长度越长,所受到的惩罚反而越轻。

GRPO在计算奖励时,会将“答案长度”纳入考量,导致简短错误答案受到更严厉的处罚。

其结果就是:模型倾向于生成“冗长而错误”的答案,表面上看似在进行细致推理,实质上是通过增加字数来规避惩罚。

难度偏见:过于简单或过于困难的题目受到过度关注。

GRPO依据“同一批题目得分的标准差”来调整权重。例如,一道题所有人都答对(标准差小),或所有人都答错(标准差也小),这道题会被视为“重点”反复训练;而中等难度、部分答对部分答错的题目(标准差大),反而被忽视。然而在实际训练过程中,中等难度的题目才是提升模型能力的关键。

该项研究的核心作者Zichen Liu指出,DeepSeek-V3.2已经通过新的优势值计算方法,修正了“难度偏见”(如下图所示红框部分)。

但模型仍然保留了有偏差的长度规范项(如下图所示蓝框部分)。也就是说,“长度偏见”问题依然存在。

DeepSeek-V3.2的token浪费问题:算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第4张

事实上,DeepSeek官方报告也提到了这一问题。

技术报告中,DeepSeek研究人员坦言,token效率对DeepSeek-V3.2来说仍是一个挑战:通常情况下,最新发布的两个模型需要生成更长的推理轨迹,才能达到Gemini-3.0-Pro的输出质量水平。

而DeepSeek-V3.2-Speciale模型本身,也是特意放宽了强化学习的长度限制,允许模型生成极长的思维链,使模型能够通过大量消耗token进行深度自我修正和探索。

这可谓是一条“在超长上下文环境下持续扩展强化学习”的技术路径。

考虑到百万token级别的输出成本,DeepSeek-V3.2的价格仅为GPT-5的1/24,这一缺陷似乎尚在可接受范围内。

此外,也有网友提到,DeepSeek的128K上下文长度已长时间未更新。这与GPU资源限制不无关系。

DeepSeek-V3.2的token浪费问题:算法偏见与优化挑战 DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第5张

您是否已经体验了DeepSeek-V3.2?欢迎在评论区分享您的使用感受和见解~

参考资料

[1]https://x.com/zzlccc/status/1995770284385992798

[2]https://api-docs.deepseek.com/news/news251201