近期,OpenAI前首席科学家、现任SSI首席执行官Ilya Sutskever在一次播客访谈中提出了一个引人注目的观点:过去五年以规模扩展为主导的AI发展模式正面临转折点。他指出,预训练数据资源有限,仅依靠增加GPU和扩大模型参数,即便规模再提升百倍,也可能无法带来质的飞跃。因此,人工智能领域将重新回归以研究为核心的时代,但这一次得益于前所未有的强大算力支撑。这一表态被广泛视为对“Scaling Law撞墙论”的有力印证。
然而,几天后的12月1日,DeepSeek通过正式发布V3.2和V3.2-Speciale模型,给出了截然不同的回应。
模型发布后,DeepSeek研究员Zhibin Gou在社交平台X上发文表示:
“如果说Gemini-3证明了持续扩展预训练的可行性,那么DeepSeek-V3.2-Speciale则验证了在大规模上下文环境中强化学习的可扩展性。我们耗费一年时间将DeepSeek-V3推向极致,所获经验是:训练后的性能瓶颈需要通过优化方法和数据策略来解决,而非单纯等待更强大的基础模型。”
他补充道:
“持续扩大模型规模、数据量、上下文长度和强化学习应用。别让那些‘遭遇瓶颈’的噪声干扰你的前进方向。”
这是DeepSeek团队罕见的一次公开表态,其意味深远。当整个行业争论Scaling Law是否已触及天花板时,DeepSeek用实际模型成果明确发声,试图证明规模扩展并未终结,只是战场发生了转移。
尽管业界普遍认可后训练阶段的重要性,但敢于将相当于预训练成本10%以上的算力预算投入强化学习的企业仍寥寥无几。DeepSeek是这条路径上实现工程化与规模化的先锋代表。
此次发布的两个模型正是这一路线的结晶:V3.2定位为日常主力模型,对标GPT-5;Speciale则专注于极限推理任务,对标Gemini 3.0 Pro,并在国际竞赛中斩获四枚金牌。
技术报告的引言部分有一句值得注意的表述:“过去几个月,开源社区虽在持续进步,但闭源模型的性能提升曲线正以更陡峭的速度攀升。差距非但没有缩小,反而在扩大。”报告同时指出了当前开源模型的三个核心短板:
因过度依赖普通注意力机制导致长序列处理效率低下、后训练阶段算力投入不足、在智能体(Agent)场景下的泛化能力较弱。但DeepSeek的态度明确:这些问题均有解决方案,而V3.2便是他们给出的答案。
V3.2是9月发布的实验版V3.2-Exp的正式继承者,其目标是在推理能力与输出成本之间取得最佳平衡。
在推理类基准测试中,V3.2达到了与GPT-5相当的水平:AIME 2025数学竞赛得分93.1%(GPT-5为94.6%),HMMT 2025二月赛得分92.5%(GPT-5为88.3%),LiveCodeBench代码评测得分83.3%(GPT-5为84.5%)。与Kimi-K2-Thinking相比,V3.2在保持相近性能的同时,显著降低了输出Token数量——严格的Token约束和长度惩罚机制使其更节省、更快速、更经济。
V3.2在架构上的核心创新是引入了DeepSeek稀疏注意力(DSA)。该技术首次亮相于9月的V3.2-Exp,用稀疏注意力替代传统的全量注意力,将计算复杂度从O(L²)降至O(Lk)。
V3.2-Exp上线两个月后,DeepSeek从多个维度验证了DSA的有效性:标准基准测试与V3.1-Terminus基本持平,ChatbotArena的Elo评分接近,第三方长上下文评测反而高出4分。这表明DeepSeek在底层架构创新上取得了正确进展,稀疏注意力能在不牺牲性能的前提下大幅提升效率。
V3.2另一重要突破是成为DeepSeek首个将“思考”与“工具调用”功能融合的模型。以往的推理模型(包括OpenAI的o系列)在思考模式下无法调用工具,V3.2打破了这一限制,同时支持思考模式和非思考模式的工具调用。
技术报告中篇幅最长的部分是智能体(Agent)能力的训练方法。DeepSeek构建了一套大规模的Agent任务合成流水线,覆盖1800多种环境和85000多条复杂指令。
这套流水线的核心设计理念是“难题易验”。以报告中的旅行规划任务为例:复杂约束组合创造了巨大的搜索空间,但验证方案是否满足约束却相对简单。这种特性天然适合强化学习,模型可通过大量尝试获得明确的对错反馈,无需人工标注。
效果验证极具说服力:仅使用合成数据进行强化学习的模型,在Tau2Bench、MCP-Mark等Agent基准测试中表现显著提升;而仅在真实环境中进行强化学习的模型,这些指标几乎无变化。
值得注意的是,官方特别强调,V3.2并未针对这些测试集的工具进行特殊训练,但在Agent评测中仍达到开源最高水平。这表明模型的泛化能力是真实的,而非通过刷榜优化所得。
Speciale是V3.2的“长思考增强版”。如果说V3.2通过严格的Token约束优化效率,Speciale则反其道而行——放宽长度限制,鼓励模型进行更深度、更细致的推理。
技术报告中的Table 3揭示了有趣现象:相同任务下,Speciale的输出Token量显著高于其他模型。例如在AIME 2025上,GPT-5 High输出13k tokens,Gemini 3.0 Pro输出15k,而Speciale输出23k;在Codeforces上差距更大,Speciale输出77k tokens,是Gemini的3.5倍。
尽管Speciale的Token输出量极大,但得益于DeepSeek的定价策略和DSA带来的效率提升,即使算上这些额外的“思考过程”,其最终使用成本依然远低于竞争对手:比GPT-5便宜约25倍($0.4 vs $10),比Gemini 3.0 Pro便宜约30倍($12),比Claude Opus 4.5便宜约62倍($25)。
Speciale的意义远不止“让模型思考更久”,它验证了一个重要假设:对推理“过程”的监督机制,能否从数学证明领域泛化到更广泛的领域?
上周刚发布的DeepSeekMath-V2提出了“生成器-验证器”双模型架构:生成器负责产出证明,验证器评估证明的严谨性和完整性,验证结果作为奖励信号反馈给生成器。该机制的关键创新在于维持“生成-验证差距”——当生成器变强后,验证器也需同步提升。DeepSeek的解决方案是动态扩展验证计算,用更多计算资源自动标注“难以验证”的证明,持续合成高难度训练数据,实现模型的可持续自我进化。
Speciale整合了Math-V2的数据集和奖励方法,不仅追求最终答案正确,更注重推理过程的严谨性与完整性。它将这套原本用于数学定理证明的“过程监督”机制,成功迁移到代码生成和通用逻辑任务中。这意味着“自我验证”并非数学领域的特例,而是一种可泛化的能力提升范式。成果也相当显著:
有网友评论道,每篇DeepSeek论文最重要的部分永远是“结论、局限性与未来工作”章节。此次技术报告也不例外,其中提到:“首先,由于总训练FLOPs较少,DeepSeek-V3.2的世界知识广度仍落后于领先的闭源模型。我们计划在后续版本中,通过扩大预训练算力来弥补这一知识差距。”
报告承认,由于总训练FLOPs较少,V3.2的世界知识广度仍落后于Gemini 3.0 Pro。但DeepSeek的选择并非等待一个更大的基础模型,而是先将方法论打磨到极致——用一年时间,通过合成数据、自我验证和大规模强化学习,真正探索出后训练的上限。
从本次发布可见这条路径的成果:
V3.2将“自我进化式工程”(高强化学习预算、合成数据闭环)应用于通用效率优化;
Speciale则将过程奖励与自我验证机制推向高阶逻辑推理。
两者共同指向同一方向:未来模型不再依赖人力堆砌,而是依靠自我博弈实现持续演进。
下一步将是扩大预训练算力以弥补知识差距。这引发两点联想:一是若DeepSeek真正补足算力,将发生什么?二是这些新的算力资源将从何而来?
回顾过去一年的技术路径,Janus的多模态统一架构、OCR的视觉压缩记忆、NSA的长上下文效率、Math-V2的自我验证……这些创新均在V3基座上迭代而成。
那么,一个参数规模更大、训练FLOPs更多的V4,叠加这些已验证有效的方法论,将产生怎样的化学反应?
一个合理甚至大胆的预期是:当V4或R2到来时,我们看到的可能不再是传统意义上的“更强语言模型”,而是一个能够感知多模态环境、具备更长期记忆、并能在真实交互中持续进化的系统。如今发生在合成环境中的自我博弈,未来或会延伸至真实环境的在线学习。
在算力层面,在英伟达频繁声称其中国市场份额已归零的背景下,继续规模扩展所需的算力资源似乎难以依赖H800等芯片提供。下一代模型将使用何种更大的算力资源训练?如果这些算力缺口得以补齐,完全形态的DeepSeek下一代模型将是什么样?这些问题显然更为重要,也更引人遐想。
本文由主机测评网于2026-01-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260122076.html