当前位置:首页 > 科技资讯 > 正文

DeepSeek V3.1登场:探索国产芯片与大模型的协同之路

DeepSeek近期推出了其V3.1版本,带来了诸多亮点:混合推理架构:支持思考模式与非思考模式的结合,使模型更加灵活。高效思考模式:相比前代DeepSeek-R1-0528,DeepSeek-V3.1-Think能更快速地给出答案。增强的Agent能力:通过Post-Training优化,新模型在工具使用与智能体任务中的表现显著提升。

更引人注目的是,DeepSeek在置顶留言中强调:UE8M0 FP8专为即将发布的国产芯片设计。

DeepSeek V3.1登场:探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第1张

这句话在当前背景下显得意味深长,毕竟不久前相关部门才要求英伟达解释H20芯片的安全风险。

这些技术名词背后,或许预示着国内AI行业正步入软硬件协同的新阶段。

DeepSeek V3.1登场:探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第2张

1

小数点的背后:大模型的精度之战

在深度学习领域,参数是模型神经元间的“权重”,训练时需不断更新、存储和计算。精度则决定了这些参数的记录方式。

介绍FP8之前,我们先回顾计算机存储数字的基本方式:从简单的整数(int)到浮点数(floating point)。

整数像算盘上的珠子,只能表示精确的单位数字,如1、2、3、4。但无法表示圆周率3.14或科学计算中的极大极小值。

于是,科学家们发明了浮点数,即FP8中的FP。小数点位置“浮动”,能表示日常数字如3.14159,也能表示天文级指数如6.02×10²³。浮点数由三部分组成:符号位、指数、尾数。符号位决定正负,指数决定小数点位置,尾数决定精度。

浮点数几乎能表示任何数字,但代价是,位数越多,表示越精确;越少,则越粗糙。

DeepSeek V3.1登场:探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第3张

很长一段时间里,FP32(32位浮点数)是计算机的黄金标准,适用于科学计算、图像处理和AI。但随着大模型参数量级膨胀至数千亿甚至万亿,FP32显得力不从心。每条权重需用32位存储,显存不足,训练时间延长。

因此,行业开始尝试降低精度,从FP16(16位浮点数)到FP8(8位浮点数)。类似将4K高清照片压缩成480p小图,细节有所损失,但能存储更多,传输更快。

DeepSeek V3.1登场:探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第4张

训练大模型时,最大瓶颈非算法,而是算力和显存。NVIDIA官方博客指出,FP8在不显著牺牲模型效果的前提下,能让吞吐量翻倍、显存占用减半,这是训练GPT级别大模型的巨大优势。

换言之,在大模型追求“规模胜过精度”的赛道上,FP8成为必然选择。

英伟达技术博客:https://developer.nvidia.com/zh-cn/blog/fp8-precision-performance/

2

规则制定者:掌握算力的关键

那么,DeepSeek所说的“UE8M0 FP8”是何物?为何还要适配国产芯片?

FP8并非完全中立的标准。NVIDIA曾携手Intel、Arm推动FP8规范化,推出E4M3和E5M2格式。但在实际落地时,NVIDIA在自家GPU上加入了许多“优化”,如per-tensor scaling、per-block scaling等动态缩放策略。这些优化细节未写入统一标准中,却与NVIDIA的硬件和软件栈深度绑定。

DeepSeek V3.1登场:探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第5张

NVIDIA最新Blackwell架构原生支持“微缩浮点格式”,包括MXFP8(8位浮点)、MXFP6(6位)、MXFP4(4位)。有研究者在高质量数据集上进行大规模验证:一个8亿参数的模型在使用MXFP8-E4M3格式和精心设计的数值转换策略后,训练结果几乎达到传统BF16(bfloat16)水平。换言之,Blackwell架构中,使用MXFP8格式的预训练效果最佳。

参考论文:Recipes for Pre-training LLMs with MXFP8

“UE8M0 FP8”并非NVIDIA官方标准,而是一种变体格式。它更侧重于范围优先策略,几乎舍弃了小数部分精度。这就像用一把刻度粗糙的卷尺量长距离,虽看不到毫米级细节,但能保证不溢出。

为何做此取舍?因为国产GPU在底层电路和指令集设计上未完全兼容NVIDIA的FP8方案。直接照搬往往导致数值不稳定、梯度爆炸等问题。DeepSeek在模型端做出妥协:采用“范围优先”的UE8M0格式,以适配国产芯片硬件逻辑。

“互相成就”的软硬件合作:模型厂商牺牲一些细节精度换取国产芯片稳定运行;而芯片厂商则通过合作建立自己的FP8生态。

3

国产GPU的FP8联盟

“DeepSeek在哪些国产芯片上训练?”是另一个问题。

(此部分非投资建议,仅为信息分享)

沐曦曦云C600芯片于2025年正式亮相。官方明确宣称其原生支持FP8精度并采用多精度混合算力架构:既能运行传统FP32/FP16任务,也能用FP8高效加速大模型训练。

DeepSeek V3.1登场:探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第6张

燧原科技也在同年推出最新L600芯片。该芯片历时两年半开发,采用训推一体架构:既承担大模型训练任务又用于推理部署。更重要的是L600原生支持FP8低精度与DeepSeek模型的精度策略一致。

DeepSeek V3.1登场:探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第7张