当前位置：首页 > 科技资讯 > 正文

DeepSeek模型推理中文化现象解析：效率与数据的双重影响

主机测评网
科技资讯
2026-02-01
353

近日，DeepSeek连续推出了两个全新模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale，它们在推理能力上实现了显著突破。DeepSeek-V3.2版本能够与GPT-5展开激烈竞争，而Speciale版本融合了长思考和定理证明能力，表现可媲美Gemini-3.0-Pro。有用户甚至感叹道："这个模型不应该叫V3.2，应该叫V4。"

海外研究者迅速体验了DeepSeek的新版本，在赞赏其推理速度大幅提升之余，却遇到了一个令人费解的现象：即使使用英文提问，模型在思考过程中仍会切换至中文。

DeepSeek模型推理中文化现象解析：效率与数据的双重影响 DeepSeek 中文思考令牌节省多语言性能第1张

这令海外用户困惑不已：为何用英文提问，模型却用中文推理？难道中文推理更加高效？

评论区形成了两种主要观点，但多数人认为"汉字的信息密度更高"。

亚马逊的研究者也赞同这一看法：

DeepSeek模型推理中文化现象解析：效率与数据的双重影响 DeepSeek 中文思考令牌节省多语言性能第2张

这一结论符合日常观察：表达相同含义时，中文所需的字符数通常少于英文。如果大模型的理解与语义压缩相关，那么中文在压缩效率上可能优于英文。这或许是"中文更省token"说法的由来。

具备多语言能力的大模型如果仅采用英语思考，往往会导致效率问题。实际上，使用非英语语言进行推理不仅能提升表现，还能减少令牌消耗。

微软的一篇论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现，使用非英语语言推理可以降低令牌使用量，同时保持准确性。即使将推理过程翻译回英语，这种优势依然存在，表明这是推理行为的实质性变化，而非表面语言效应。

DeepSeek模型推理中文化现象解析：效率与数据的双重影响 DeepSeek 中文思考令牌节省多语言性能第3张

论文标题：EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning

论文链接：https://www.arxiv.org/abs/2507.00246

该论文评估了三个先进的开源推理模型：DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B)。问题以英语呈现，但模型被指示用七种目标语言之一进行推理：中文、俄语、西班牙语、印地语、阿拉伯语、韩语和土耳其语。最终答案必须以英语提供，以确保评估一致性。

DeepSeek模型推理中文化现象解析：效率与数据的双重影响 DeepSeek 中文思考令牌节省多语言性能第4张

令牌数量比率与在英语和目标语言中均至少有一个正确答案的问题数量的关系。该比率相对于DeepSeek R1每个问题的平均英语令牌数量计算。

在所有评估的模型和数据集上，使用非英语语言推理始终能实现20-40%的令牌降低，且通常不影响准确性。DeepSeek R1的令牌减少量从14.1%（俄语）到29.9%（西班牙语）不等，而Qwen 3的节省更显著，韩语减少量高达73%。这些效率提升直接转化为推理成本降低、延迟减少和计算资源需求下降。

从实验结果看，中文确实比英文节省推理令牌成本，但并非最有效率的语言。

另一篇研究论文也支持类似观点。马里兰大学和微软的论文《One ruler to measure them all: Benchmarking multilingual long-context language models》提出了包含26种语言的多语言基准OneRuler，用于评估大型语言模型在长达128K令牌的长上下文理解能力。

DeepSeek模型推理中文化现象解析：效率与数据的双重影响 DeepSeek 中文思考令牌节省多语言性能第5张