当前位置：首页 > 科技资讯 > 正文

DeepSeek-V3.2的token浪费问题：GRPO算法隐藏的“长度偏见”

DeepSeek-V3.2自发布以来备受瞩目，然而随着用户深入使用，一个隐藏的bug逐渐浮出水面。

这一问题并不新鲜——它依旧是关于token的浪费。

DeepSeek-V3.2的token浪费问题：GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法长度偏见第1张

图源：x@Hangslin

许多用户反馈，DeepSeek-V3.2的长思考增强版Speciale虽以开源姿态给闭源巨头带来了压力，但其短板同样突出：

处理复杂任务时，token消耗量明显偏高，甚至出现“又长又错”的回答。

例如，在解决同一问题时，Gemini仅耗费2万token，而Speciale却需要高达7.7万token。

DeepSeek-V3.2的token浪费问题：GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法长度偏见第2张

这背后的原因究竟是什么？

未被修正的“长度偏见”

研究人员指出，这一问题自DeepSeek-R1-Zero起便存在于DeepSeek系列模型中，堪称一个长期“bug”。

DeepSeek-V3.2的token浪费问题：GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法长度偏见第3张

简而言之，根源在于GRPO算法的设计。

来自Sea AI Lab、新加坡国立大学等机构的研究者认为，GRPO存在两种“隐藏偏见”。

长度偏见：错误答案越长，所受惩罚反而越轻

GRPO在计算奖励时，会将“答案长度”纳入考量，导致短而错误的答案受到更严厉的惩罚。

最终结果：模型倾向于生成“冗长但错误”的答案，表面上看似在“认真推理”，实则是在“堆砌字数以规避惩罚”。

难度偏见：过于简单或困难的题目被过度关注

GRPO根据“同一批次题目得分的标准差”来调整权重。例如，若一道题所有人都答对（标准差小）或所有人都答错（标准差也小），该题就会被当作“重点”反复训练；而那些中等难度、有人对有人错的题目（标准差大）反而被忽视。然而在实际训练中，中等难度的题目才是提升能力的关键。

该研究的核心作者Zichen Liu指出，DeepSeek-V3.2已通过新的优势值计算方式修正了“难度偏见”（如下图红框所示）。

但仍有偏的长度规范项被保留（如下图蓝框所示）。换言之，“长度偏见”依然存在。

DeepSeek-V3.2的token浪费问题：GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法长度偏见第4张

实际上，DeepSeek官方报告也提到了这个问题。

技术报告中，DeepSeek研究人员坦言，token效率对DeepSeek-V3.2来说仍是一大挑战：通常情况下，新发布的两个模型需要生成更长的轨迹，才能达到Gemini-3.0-Pro的输出质量。

而DeepSeek-V3.2-Speciale更是特意放宽了RL的长度限制，允许模型生成极长的思维链，旨在通过大量消耗token实现深度的自我修正和探索。

可以说，这是一条“在超长上下文下持续扩展强化学习”的路线。

考虑到百万token的输出成本，DeepSeek-V3.2的价格仅为GPT-5的1/24，似乎仍在可接受范围内。

此外，有网友指出，DeepSeek的128K上下文限制已很久未更新，这可能与GPU资源有限有关。

DeepSeek-V3.2的token浪费问题：GRPO算法隐藏的“长度偏见” DeepSeek-V3.2 token浪费 GRPO算法长度偏见第5张

你是否已经体验过DeepSeek-V3.2？感受如何，欢迎在评论区分享你的看法~

[1]https://x.com/zzlccc/status/1995770284385992798

[2]https://api-docs.deepseek.com/news/news251201

本文由主机测评网于2026-02-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260227358.html