当前位置:首页 > 科技资讯 > 正文

DeepSeek模型推理中文化现象解析:效率与数据的双重影响

近日,DeepSeek连续推出了两个全新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,它们在推理能力上实现了显著突破。DeepSeek-V3.2版本能够与GPT-5展开激烈竞争,而Speciale版本融合了长思考和定理证明能力,表现可媲美Gemini-3.0-Pro。有用户甚至感叹道:"这个模型不应该叫V3.2,应该叫V4。"

海外研究者迅速体验了DeepSeek的新版本,在赞赏其推理速度大幅提升之余,却遇到了一个令人费解的现象:即使使用英文提问,模型在思考过程中仍会切换至中文。

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第1张

这令海外用户困惑不已:为何用英文提问,模型却用中文推理?难道中文推理更加高效?

评论区形成了两种主要观点,但多数人认为"汉字的信息密度更高"。

亚马逊的研究者也赞同这一看法:

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第2张

这一结论符合日常观察:表达相同含义时,中文所需的字符数通常少于英文。如果大模型的理解与语义压缩相关,那么中文在压缩效率上可能优于英文。这或许是"中文更省token"说法的由来。

具备多语言能力的大模型如果仅采用英语思考,往往会导致效率问题。实际上,使用非英语语言进行推理不仅能提升表现,还能减少令牌消耗。

微软的一篇论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现,使用非英语语言推理可以降低令牌使用量,同时保持准确性。即使将推理过程翻译回英语,这种优势依然存在,表明这是推理行为的实质性变化,而非表面语言效应。

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第3张

论文标题:EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning

论文链接:https://www.arxiv.org/abs/2507.00246

该论文评估了三个先进的开源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B)。问题以英语呈现,但模型被指示用七种目标语言之一进行推理:中文、俄语、西班牙语、印地语、阿拉伯语、韩语和土耳其语。最终答案必须以英语提供,以确保评估一致性。

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第4张

令牌数量比率与在英语和目标语言中均至少有一个正确答案的问题数量的关系。该比率相对于DeepSeek R1每个问题的平均英语令牌数量计算。

在所有评估的模型和数据集上,使用非英语语言推理始终能实现20-40%的令牌降低,且通常不影响准确性。DeepSeek R1的令牌减少量从14.1%(俄语)到29.9%(西班牙语)不等,而Qwen 3的节省更显著,韩语减少量高达73%。这些效率提升直接转化为推理成本降低、延迟减少和计算资源需求下降。

从实验结果看,中文确实比英文节省推理令牌成本,但并非最有效率的语言。

另一篇研究论文也支持类似观点。马里兰大学和微软的论文《One ruler to measure them all: Benchmarking multilingual long-context language models》提出了包含26种语言的多语言基准OneRuler,用于评估大型语言模型在长达128K令牌的长上下文理解能力。

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第5张

论文标题:One ruler to measure them all: Benchmarking multilingual long-context language models

论文链接:https://www.arxiv.org/abs/2503.01996v3

研究者通过两个步骤构建OneRuler:首先为每个任务编写英语指令,然后与母语使用者合作翻译成另外25种语言。

对开放权重和闭源语言模型的实验表明,随着上下文长度从8K增加到128K令牌,低资源语言与高资源语言之间的性能差距扩大。令人惊讶的是,英语并非长上下文任务中表现最好的语言(在26种语言中排名第6),而波兰语位居榜首。在指令和上下文语言不一致的跨语言场景中,性能波动可达20%。

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第6张

图4:在长上下文任务(64K和128K)中,按语言资源组分类的各模型和语言的NIAH性能表现。Gemini 1.5 Flash展现了最佳的长上下文性能,而出人意料的是,英语和中文并未进入排名前五的语言之列。

既然中英文都不是大模型性能最佳的语言,那么大模型选择思考语言的方式并非完全基于效率。

因此,评论区的第二种观点"训练数据中包含更多中文内容"似乎更合理。

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第7张

国产大模型采用更多中文训练语料,其思考过程出现中文是正常现象。类似地,AI编程工具Cursor发布的新版本2.0核心模型"Composer-1"被质疑是中国模型套壳,正是因为其思考过程完全由中文构成。

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第8张

但类似现象在GPT上就难以解释,因为其训练数据中英文占比显然更高。

今年1月份,有网友发现OpenAI的o1-pro模型也会随机出现中文思考过程。

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第9张

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第10张

或许这正是人类语言的魅力所在,不同语言具有不同特性,在大模型中总会引发各种奇特现象。

DeepSeek模型推理中文化现象解析:效率与数据的双重影响 DeepSeek  中文思考 令牌节省 多语言性能 第11张

大模型使用中文的情况日益增多,中文训练语料也越来越丰富。未来某天,我们或许能像海外友人自嘲那样调侃大模型:"我并不是要你变成中国人。我是说——当时机成熟时,你照照镜子,就会发现自己早已是中国人了。"