当前位置：首页 > 科技资讯 > 正文

DeepSeek V3.1登场：探索国产芯片与大模型的协同之路

主机测评网
科技资讯
2026-04-24
382

DeepSeek近期推出了其V3.1版本，带来了诸多亮点：混合推理架构：支持思考模式与非思考模式的结合，使模型更加灵活。高效思考模式：相比前代DeepSeek-R1-0528，DeepSeek-V3.1-Think能更快速地给出答案。增强的Agent能力：通过Post-Training优化，新模型在工具使用与智能体任务中的表现显著提升。

更引人注目的是，DeepSeek在置顶留言中强调：UE8M0 FP8专为即将发布的国产芯片设计。

DeepSeek V3.1登场：探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第1张

这句话在当前背景下显得意味深长，毕竟不久前相关部门才要求英伟达解释H20芯片的安全风险。

这些技术名词背后，或许预示着国内AI行业正步入软硬件协同的新阶段。

DeepSeek V3.1登场：探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第2张

1 小数点的背后：大模型的精度之战

在深度学习领域，参数是模型神经元间的“权重”，训练时需不断更新、存储和计算。精度则决定了这些参数的记录方式。

介绍FP8之前，我们先回顾计算机存储数字的基本方式：从简单的整数（int）到浮点数（floating point）。

整数像算盘上的珠子，只能表示精确的单位数字，如1、2、3、4。但无法表示圆周率3.14或科学计算中的极大极小值。

于是，科学家们发明了浮点数，即FP8中的FP。小数点位置“浮动”，能表示日常数字如3.14159，也能表示天文级指数如6.02×10²³。浮点数由三部分组成：符号位、指数、尾数。符号位决定正负，指数决定小数点位置，尾数决定精度。

浮点数几乎能表示任何数字，但代价是，位数越多，表示越精确；越少，则越粗糙。

DeepSeek V3.1登场：探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第3张

很长一段时间里，FP32（32位浮点数）是计算机的黄金标准，适用于科学计算、图像处理和AI。但随着大模型参数量级膨胀至数千亿甚至万亿，FP32显得力不从心。每条权重需用32位存储，显存不足，训练时间延长。

因此，行业开始尝试降低精度，从FP16（16位浮点数）到FP8（8位浮点数）。类似将4K高清照片压缩成480p小图，细节有所损失，但能存储更多，传输更快。

DeepSeek V3.1登场：探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第4张

训练大模型时，最大瓶颈非算法，而是算力和显存。NVIDIA官方博客指出，FP8在不显著牺牲模型效果的前提下，能让吞吐量翻倍、显存占用减半，这是训练GPT级别大模型的巨大优势。

换言之，在大模型追求“规模胜过精度”的赛道上，FP8成为必然选择。

英伟达技术博客：https://developer.nvidia.com/zh-cn/blog/fp8-precision-performance/

2 规则制定者：掌握算力的关键

那么，DeepSeek所说的“UE8M0 FP8”是何物？为何还要适配国产芯片？

FP8并非完全中立的标准。NVIDIA曾携手Intel、Arm推动FP8规范化，推出E4M3和E5M2格式。但在实际落地时，NVIDIA在自家GPU上加入了许多“优化”，如per-tensor scaling、per-block scaling等动态缩放策略。这些优化细节未写入统一标准中，却与NVIDIA的硬件和软件栈深度绑定。

DeepSeek V3.1登场：探索国产芯片与大模型的协同之路 V3.1 国产芯片 FP8 第5张

NVIDIA最新Blackwell架构原生支持“微缩浮点格式”，包括MXFP8（8位浮点）、MXFP6（6位）、MXFP4（4位）。有研究者在高质量数据集上进行大规模验证：一个8亿参数的模型在使用MXFP8-E4M3格式和精心设计的数值转换策略后，训练结果几乎达到传统BF16（bfloat16）水平。换言之，Blackwell架构中，使用MXFP8格式的预训练效果最佳。