DeepSeek-V3.2模型近期成为人工智能领域的热点,但用户反馈揭示了一个持续存在的效率问题。
这一问题核心在于token消耗过高,尤其是在处理复杂查询时。
图片来源:x@Hangslin
许多社区用户指出,DeepSeek-V3.2的长思考版本Speciale确实以开源形式对闭源顶级模型构成了竞争压力,但其缺陷也相当明显。
当面对复杂任务时,该模型往往需要消耗更多的token资源,有时甚至产生冗长但错误的输出。
例如,在相同问题解决中,Gemini仅使用2万token,而Speciale却需要7.7万token。
这背后的原因是什么?
研究人員表示,这一现象源自DeepSeek-R1-Zero以来系列模型固有的一个技术漏洞。
简而言之,问题根源在于GRPO算法设计。
来自Sea AI Lab和新加坡国立大学等机构的研究学者认为,GRPO算法存在两种隐性偏差。
长度偏见:错误答案的长度越长,所受到的惩罚反而越轻。
GRPO在计算奖励时,会将“答案长度”纳入考量,导致简短错误答案受到更严厉的处罚。
其结果就是:模型倾向于生成“冗长而错误”的答案,表面上看似在进行细致推理,实质上是通过增加字数来规避惩罚。
难度偏见:过于简单或过于困难的题目受到过度关注。
GRPO依据“同一批题目得分的标准差”来调整权重。例如,一道题所有人都答对(标准差小),或所有人都答错(标准差也小),这道题会被视为“重点”反复训练;而中等难度、部分答对部分答错的题目(标准差大),反而被忽视。然而在实际训练过程中,中等难度的题目才是提升模型能力的关键。
该项研究的核心作者Zichen Liu指出,DeepSeek-V3.2已经通过新的优势值计算方法,修正了“难度偏见”(如下图所示红框部分)。
但模型仍然保留了有偏差的长度规范项(如下图所示蓝框部分)。也就是说,“长度偏见”问题依然存在。
事实上,DeepSeek官方报告也提到了这一问题。
技术报告中,DeepSeek研究人员坦言,token效率对DeepSeek-V3.2来说仍是一个挑战:通常情况下,最新发布的两个模型需要生成更长的推理轨迹,才能达到Gemini-3.0-Pro的输出质量水平。
而DeepSeek-V3.2-Speciale模型本身,也是特意放宽了强化学习的长度限制,允许模型生成极长的思维链,使模型能够通过大量消耗token进行深度自我修正和探索。
这可谓是一条“在超长上下文环境下持续扩展强化学习”的技术路径。
考虑到百万token级别的输出成本,DeepSeek-V3.2的价格仅为GPT-5的1/24,这一缺陷似乎尚在可接受范围内。
此外,也有网友提到,DeepSeek的128K上下文长度已长时间未更新。这与GPU资源限制不无关系。
您是否已经体验了DeepSeek-V3.2?欢迎在评论区分享您的使用感受和见解~
[1]https://x.com/zzlccc/status/1995770284385992798
[2]https://api-docs.deepseek.com/news/news251201
本文由主机测评网于2026-02-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260222311.html