当前位置：首页 > 科技资讯 > 正文

DeepSeek-V3.2 Speciale的Token消耗异常与GRPO算法缺陷深度解析

主机测评网
科技资讯
2026-02-04
533

每当DeepSeek发布新一代模型，总会引发人工智能领域的高度聚焦与深入探讨，但同时也难以避免地会显露一些技术上的小瑕疵。

例如，当海外用户使用英文进行提问时，模型在内部思考环节却突然转换至「充满神秘感的东方字符」。当然，DeepSeek模型对于汉字「特别偏爱」的现象并非首次出现，此前广为人知的「极」字Bug便是一个典型案例。

而此番，随着全新模型DeepSeek-V3.2的正式亮相，社区再次发现了模型亟待优化的方面：其长思考版本（Speciale）凸显出Token利用效能不足的显著问题。

依据多位研究人员的反馈，DeepSeek-V3.2 Speciale在执行复杂计算任务时呈现出明显的Token消耗异常。具体表现如下：

在完成同一项任务时，Gemini仅耗费2万Token，而DeepSeek-V3.2 Speciale却消耗了7.7万Token，这意味着它需要付出超过3倍的Token成本才能产出质量相近的解答。

此外，Speciale版本还存在输出内容冗长且重复，但最终答案仍不准确的情况，这并非新出现的缺陷，而是GRPO算法与生俱来的局限性。

DeepSeek-V3.2 Speciale的Token消耗异常与GRPO算法缺陷深度解析 Token效率 GRPO算法长度偏置第1张

来源：https://x.com/Compute_King/status/1996179050012794968

实际上，DeepSeek-V3.2在Token消耗上的异常状况，早已被众多用户及研究团队所察觉。有社区爱好者指出，Speciale版本确实拥有卓越的推理能力，但在实际应用场景中，其Token消耗速度犹如流水般飞快，明显超越同类竞品。他们评论称，倘若DeepSeek-V3.2 Speciale的生成速度能从现有的约30 tokens/s提高到100 tokens/s附近，那么其整体实用性与用户体验必将获得巨大提升。

DeepSeek-V3.2 Speciale的Token消耗异常与GRPO算法缺陷深度解析 Token效率 GRPO算法长度偏置第2张

专注于AI模型独立分析与托管服务的提供商Artificial Analysis则明确表示：「DeepSeek V3.2在推理模式下的输出比前代模型更为拖沓，在执行AAII（Artificial Analysis Intelligence Index）基准测试过程中，输出Token的消耗量增长显著，达到8600万，而上一个版本仅用了6200万。」

DeepSeek-V3.2 Speciale的Token消耗异常与GRPO算法缺陷深度解析 Token效率 GRPO算法长度偏置第3张

来源：https://x.com/ArtificialAnlys/status/1996110264102781332

「即便是与Grok和Mistral等模型进行横向比较，也能清晰观察到DeepSeek V3.2在输出Token时存在的延迟现象。」

DeepSeek-V3.2 Speciale的Token消耗异常与GRPO算法缺陷深度解析 Token效率 GRPO算法长度偏置第4张

来源：https://x.com/kurtqian/status/1995728391115362529

对于这一状况，DeepSeek团队在官方技术报告中也十分坦率地予以承认，并提供了详细的数据对照。

DeepSeek-V3.2 Speciale的Token消耗异常与GRPO算法缺陷深度解析 Token效率 GRPO算法长度偏置第5张

DeepSeek-V3.2 Speciale的Token消耗异常与GRPO算法缺陷深度解析 Token效率 GRPO算法长度偏置第6张

报告明确指出，DeepSeek-V3.2-Speciale的token使用效能显著低于Gemini-3.0-Pro。

为了有效降低部署开销并缩减推理延迟，官方版本的DeepSeek-V3.2在训练阶段实施了更为严苛的token约束策略，旨在性能与成本之间寻求更佳的平衡点。DeepSeek的研究人员强调，token效率在未来仍是一个至关重要的探索方向。

DeepSeek技术报告：https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

输出内容冗长且重复，GRPO算法内在缺陷凸显

GRPO算法自DeepSeek问世以来，便逐渐演变为强化学习领域的标杆性范式，想必各位读者对其已不再陌生。

我们此前曾对GRPO方法的核心原理进行过系统阐述，建议感兴趣的读者查阅我们的科普文章。科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

早在今年三月公开发表的论文《Understanding R1-Zero-Like Training: A Critical Perspective》中，来自Sea AI Lab与新加坡国立大学等机构的研究者们，便深刻揭示了GRPO算法存在的两大核心问题，指出GRPO可能导致模型优化过程产生系统性偏置。

DeepSeek-V3.2 Speciale的Token消耗异常与GRPO算法缺陷深度解析 Token效率 GRPO算法长度偏置第7张

论文标题：Understanding R1-Zero-Like Training: A Critical Perspective

论文链接：https://arxiv.org/pdf/2503.20783

Github 链接：https://github.com/sail-sg/understand-r1-zero

在DeepSeek-R1-Zero的训练周期内，模型响应长度便已呈现出在整个训练阶段持续延长的态势，而这一现象在DeepSeek-V3.2 Speciale中依旧存在。

以下展示的是经典的GRPO损失函数公式，论文作者颇为细致地将影响优化过程的关键部分以红色标出：

DeepSeek-V3.2 Speciale的Token消耗异常与GRPO算法缺陷深度解析 Token效率 GRPO算法长度偏置第8张