当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步

DeepSeek再进一步,离下一代架构更近一步!

智东西9月30日报道,昨日,DeepSeek宣布开源DeepSeek-V3.2-Exp实验版模型。该模型首次引入了DeepSeek Sparse Attention稀疏注意力机制,在几乎不影响模型输出效果的前提下,大幅提升了长文本训练和推理效率,被DeepSeek定义为“迈向新一代架构的中间步骤”。

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步 DeepSeek-V3.2-Exp 稀疏注意力 性能提升 架构创新 第1张

HuggingFace地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

魔搭社区地址:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

这一改进还降低了DeepSeek新模型的服务成本,DeepSeek因此执行了新的价格政策,让开发者调用DeepSeek API的成本降低50%以上。

降价幅度最大的为输出token的价格:DeepSeek-V3.2-Exp模型输出100万个token的价格仅为3元,为DeepSeek-V3.1系列模型的1/4。

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步 DeepSeek-V3.2-Exp 稀疏注意力 性能提升 架构创新 第2张

截至9月30日上午6点,华为云、PPIO派欧云、优刻得等云平台已宣布上线DeepSeek-V3.2-Exp,华为、寒武纪、海光信息等AI芯片厂商已经宣布适配DeepSeek-V3.2-Exp。

DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基础上打造的。在各领域的公开评测集上,两款模型的表现基本一致,不过,DeepSeek-V3.2-Exp完成任务使用的token量大幅度减少。

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步 DeepSeek-V3.2-Exp 稀疏注意力 性能提升 架构创新 第3张

目前,DeepSeek App、网页端与小程序均已同步上线了DeepSeek-V3.2-Exp模型。DeepSeek也临时保留了DeepSeek-V3.1-Terminus的API接口,方便开发者进行对比验证。

除模型本体外,DeepSeek还开源了相关技术报告及代码,并提供TileLang与CUDA双版本GPU算子,以便研究者在不同层级进行实验和优化。

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步 DeepSeek-V3.2-Exp 稀疏注意力 性能提升 架构创新 第4张

技术报告地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek还补充道,作为一个实验性的版本,虽然已经在公开评测集上得到了有效性验证,但仍需更广泛的用户测试以确保性能稳定。

华为、海光、寒武纪迅速适配,网友期待新一代DeepSeek

企业纷纷响应,推动技术迭代

在模型发布后仅几分钟,华为、寒武纪等巨头便宣布适配完成。

华为计算公众号发文称,昇腾已快速完成适配部署,实现Day 0支持。DeepSeek-V3.2-Exp在昇腾设备上能维持高效的推理生成速度。

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步 DeepSeek-V3.2-Exp 稀疏注意力 性能提升 架构创新 第5张

华为云则首发上线了DeepSeek-V3.2-Exp,使用CloudMatrix 384超节点提供推理服务。

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步 DeepSeek-V3.2-Exp 稀疏注意力 性能提升 架构创新 第6张

寒武纪也在短短几分钟内宣布适配完成,并开源大模型推理引擎vLLM-MLU源代码。

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步 DeepSeek-V3.2-Exp 稀疏注意力 性能提升 架构创新 第7张

用户体验与架构创新并重

编程更简洁但性能略降

在编程方面,代码更为简短

然而,这在某种程度上影响了模型的性能。例如,在动画生成任务中,与DeepSeek-V3.1相比,V3.2未能成功完成任务。

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步 DeepSeek-V3.2-Exp 稀疏注意力 性能提升 架构创新 第8张

信息检索任务中,V3.2推荐的结果虽然简洁但不符合所有要求。

DeepSeek-V3.2-Exp实验版发布:迈向新架构的关键一步 DeepSeek-V3.2-Exp 稀疏注意力 性能提升 架构创新 第9张

架构创新优于性能提升

“继续预训练+后训练”模式展现高效性

“继续预训练+后训练”模式有效平衡性能与效率

“迈向新一代架构”的初步尝试

“展示新路径”的初步成功