DeepSeek再进一步,离下一代架构更近一步!
智东西9月30日报道,昨日,DeepSeek宣布开源DeepSeek-V3.2-Exp实验版模型。该模型首次引入了DeepSeek Sparse Attention稀疏注意力机制,在几乎不影响模型输出效果的前提下,大幅提升了长文本训练和推理效率,被DeepSeek定义为“迈向新一代架构的中间步骤”。
HuggingFace地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
魔搭社区地址:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
这一改进还降低了DeepSeek新模型的服务成本,DeepSeek因此执行了新的价格政策,让开发者调用DeepSeek API的成本降低50%以上。
降价幅度最大的为输出token的价格:DeepSeek-V3.2-Exp模型输出100万个token的价格仅为3元,为DeepSeek-V3.1系列模型的1/4。
截至9月30日上午6点,华为云、PPIO派欧云、优刻得等云平台已宣布上线DeepSeek-V3.2-Exp,华为、寒武纪、海光信息等AI芯片厂商已经宣布适配DeepSeek-V3.2-Exp。
DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基础上打造的。在各领域的公开评测集上,两款模型的表现基本一致,不过,DeepSeek-V3.2-Exp完成任务使用的token量大幅度减少。
目前,DeepSeek App、网页端与小程序均已同步上线了DeepSeek-V3.2-Exp模型。DeepSeek也临时保留了DeepSeek-V3.1-Terminus的API接口,方便开发者进行对比验证。
除模型本体外,DeepSeek还开源了相关技术报告及代码,并提供TileLang与CUDA双版本GPU算子,以便研究者在不同层级进行实验和优化。
技术报告地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
DeepSeek还补充道,作为一个实验性的版本,虽然已经在公开评测集上得到了有效性验证,但仍需更广泛的用户测试以确保性能稳定。
华为计算公众号发文称,昇腾已快速完成适配部署,实现Day 0支持。DeepSeek-V3.2-Exp在昇腾设备上能维持高效的推理生成速度。
华为云则首发上线了DeepSeek-V3.2-Exp,使用CloudMatrix 384超节点提供推理服务。
寒武纪也在短短几分钟内宣布适配完成,并开源大模型推理引擎vLLM-MLU源代码。
然而,这在某种程度上影响了模型的性能。例如,在动画生成任务中,与DeepSeek-V3.1相比,V3.2未能成功完成任务。
信息检索任务中,V3.2推荐的结果虽然简洁但不符合所有要求。
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542174.html