当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.2的token浪费问题:GRPO算法隐藏的“长度偏见”

DeepSeek-V3.2自发布以来备受瞩目,然而随着用户深入使用,一个隐藏的bug逐渐浮出水面。

这一问题并不新鲜——它依旧是关于token的浪费。

DeepSeek-V3.2的token浪费问题:GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第1张

图源:x@Hangslin

许多用户反馈,DeepSeek-V3.2的长思考增强版Speciale虽以开源姿态给闭源巨头带来了压力,但其短板同样突出:

处理复杂任务时,token消耗量明显偏高,甚至出现“又长又错”的回答。

例如,在解决同一问题时,Gemini仅耗费2万token,而Speciale却需要高达7.7万token。

DeepSeek-V3.2的token浪费问题:GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第2张

这背后的原因究竟是什么?

未被修正的“长度偏见”

研究人员指出,这一问题自DeepSeek-R1-Zero起便存在于DeepSeek系列模型中,堪称一个长期“bug”。

DeepSeek-V3.2的token浪费问题:GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第3张

简而言之,根源在于GRPO算法的设计。

来自Sea AI Lab、新加坡国立大学等机构的研究者认为,GRPO存在两种“隐藏偏见”。

长度偏见:错误答案越长,所受惩罚反而越轻

GRPO在计算奖励时,会将“答案长度”纳入考量,导致短而错误的答案受到更严厉的惩罚。

最终结果:模型倾向于生成“冗长但错误”的答案,表面上看似在“认真推理”,实则是在“堆砌字数以规避惩罚”。

难度偏见:过于简单或困难的题目被过度关注

GRPO根据“同一批次题目得分的标准差”来调整权重。例如,若一道题所有人都答对(标准差小)或所有人都答错(标准差也小),该题就会被当作“重点”反复训练;而那些中等难度、有人对有人错的题目(标准差大)反而被忽视。然而在实际训练中,中等难度的题目才是提升能力的关键。

该研究的核心作者Zichen Liu指出,DeepSeek-V3.2已通过新的优势值计算方式修正了“难度偏见”(如下图红框所示)。

但仍有偏的长度规范项被保留(如下图蓝框所示)。换言之,“长度偏见”依然存在。

DeepSeek-V3.2的token浪费问题:GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第4张

实际上,DeepSeek官方报告也提到了这个问题。

技术报告中,DeepSeek研究人员坦言,token效率对DeepSeek-V3.2来说仍是一大挑战:通常情况下,新发布的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量。

而DeepSeek-V3.2-Speciale更是特意放宽了RL的长度限制,允许模型生成极长的思维链,旨在通过大量消耗token实现深度的自我修正和探索。

可以说,这是一条“在超长上下文下持续扩展强化学习”的路线。

考虑到百万token的输出成本,DeepSeek-V3.2的价格仅为GPT-5的1/24,似乎仍在可接受范围内。

此外,有网友指出,DeepSeek的128K上下文限制已很久未更新,这可能与GPU资源有限有关。

DeepSeek-V3.2的token浪费问题:GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法 长度偏见 第5张

你是否已经体验过DeepSeek-V3.2?感受如何,欢迎在评论区分享你的看法~

参考链接

[1]https://x.com/zzlccc/status/1995770284385992798

[2]https://api-docs.deepseek.com/news/news251201