随着DeepSeek V3.1的正式亮相,官方的一则简短声明在人工智能领域激起了巨大波澜:
新架构与下一代国产芯片的提及,虽寥寥数语,却蕴含着深远的技术变革信息。
国产芯片企业股价随即跟涨,例如寒武纪今日早盘盘中飙升近14%,总市值登顶科创板首位。
半导体ETF同样在半天内大涨5.89%。(不禁让人猜想,发布消息的DeepSeek背后公司幻方量化是否借此机会进行了一波操作【幽默表情】)
这个UE8M0 FP8究竟是什么?下一代国产芯片又指向何方?
接二连三的疑问充斥在人们的思绪中。
在知乎平台上,众多技术达人开始一边科普一边分享个人见解。
让我们怀着学习的心态,从UE8M0 FP8的基本概念开始探讨。
“UE8M0 FP8”这一术语可拆分为前后两部分来理解,前面的UE8M0,是MXFP8路径中的“缩放因子”。
MXFP8是开放计算项目(Open Compute Project)在2023年发布的《微缩放格式规范v1.0》中定义的8位微缩块格式。
开放计算项目于2011年由Facebook(现Meta)联合英特尔、Rackspace等企业发起,旨在通过共享数据中心及服务器设计推动行业效率提升。
其成员阵容强大,国外包括微软、谷歌、亚马逊、AMD、英伟达等,国内则有阿里、腾讯、百度等参与其中。
回归MXFP8,它以FP8为基础构建,FP8是将常规浮点格式压缩至8位的一种编码方式。
MXFP8的核心思想是先将张量切割为固定长度的“块”,然后为每个块独立指定一个2的整数次幂作为“缩放因子”,将块内所有数值除以该系数后再编码为FP8。
这种块级缩放(而非全张量级)使得MXFP8在保留8位宽度的同时,将可用动态范围扩展了数十倍。
图示
而这里的“缩放因子”同样包含8个位,其中涵盖符号位、指数位和尾数位,开发者可以自主将这8个位分配给这三种不同的位。
符号位仅区分有无,若有则占一个位,无则不占用;UE8M0中的U表示无符号(有符号可表示为S或省略不写)。
E和M则分别代表指数位和尾数位分配到的位数,E8M0意指所有8个位全部分配给指数位。
其他常用格式还包括E4M3、E5M2(缩放因子之外的本体部分也常采用这两种)等,它们均包含符号位,其余7个位在指数和尾数位之间分配。
DeepSeek之前开源的5.6k星标项目FP8 GEMM内核DeepGEMM已支持UE8M0,不过该项目主要适配英伟达芯片和CUDA生态。
那么,采用这种全指数表示缩放因子的方式,究竟有何益处?
首先,由于UE8M0不含尾数与符号位,处理器在根据缩放因子复原数据时,仅需乘以对应的2的幂,即简单移动指数位,无需浮点乘法、规格化或舍入逻辑,从而缩短时钟关键路径。
并且UE8M0的动态范围覆盖2^(−127)至2^128,其指数表可轻松容纳这一跨度,为后续块缩放提供充足空间。
此外,UE8M0还能解决单尺度FP8无法同时兼顾大/小值,导致溢出或被压缩为零的问题;将UE8M0作为分块尺度后,错误率曲线从整体下降至一条低水平横线,在保持8位张量精度的同时显著减少信息损失。
图示
了解UE8M0 FP8的优势后,我们便可解释为何它更适配“下一代国产芯片”。
多数已量产的国产AI加速器仍沿用FP16/BF16 + INT8的计算通路,尚未集成E4M3/E5M2这类完整的FP8乘加单元。
不过,摩尔线程MUSA 3.1 GPU、芯原VIP9000 NPU等2025年下半年首发的新款国产芯片已在宣传资料中列出“原生 FP8”或“块 FP8”支持,并与 DeepSeek、华为等15家厂商联合验证UE8M0格式。
尽管下一代国产芯片已在为FP8做准备,但HBM/LPPDDR带宽仍与顶尖芯片存在较大差距。
而UE8M0使得一组32个FP8数据仅追加8位缩放因子,相比传统的4B(32位) FP32缩放直接节省75%的流量,这种空间节约措施被视为下一代架构的重要优化方向。
在弄清UE8M0 FP8之后,回过神来的网友们开始纷纷猜测:
DeepSeek究竟指向哪一家国产芯片厂商?
在官方有意保持神秘的情况下,人们首先将目光投向了首批通过“DeepSeek大模型适配”的8家厂商。
图示
这其中,备受看好的“头号种子选手”当属寒武纪,市场反应直观可见——
截至今日10:25,寒武纪盘中大涨近14%,总市值超4940亿元,超越中芯国际跃居科创板榜首(实际以最新数据为准)。
理由也很直接,该公司旗下的MLU370-S4、思元590及最新690系列芯片均支持FP8计算,在架构设计和低精度计算优化上一直保持相对领先。
基于类似理由,海光、沐曦、中昊芯英甚至包括名单之外的摩尔线程等也都被网友们逐一提名:
海光:其深算三号DCU支持FP8计算,存在进一步优化空间;
沐曦:今年7月发布的曦云C600,同样支持FP8精度计算;
中昊芯英: 其“刹那”TPU AI芯片支持FP8精度;
摩尔线程:作为国内极少数原生支持FP8的GPU厂商,旗舰产品MTT S5000支持FP8精度计算。
与此同时,一些很有可能“即将支持FP8”的厂商也出现在盘点名单中。
例如华为昇腾,虽然昇腾910B和910C暂不支持原生FP8,但官方路线图已注明“2025Q4原生FP8”,因此众人预计可能在2026年推出的910D(可能命名)很有可能是所谓的“下一代芯片”。
除以上这些,还有众多芯片厂商的名字出现在讨论中,场面堪称盛况空前。
尽管猜测未有定论,但不妨碍市场给予热烈回应。根据最新消息,今日国产芯片概念集体高开,科创50大涨3%创近三年半新高,芯片产业链全线走强。
那么,大家为何集体狂欢?国产芯片一旦支持UE8M0 FP8究竟意味着什么?
综合当前国内外各方观点,一切可用一句话概括:
这标志着国产AI正迈向软硬协同新阶段,能够实质性降低对英伟达、AMD等国外算力的依赖。
其中的逻辑清晰明了:正是由于UE8M0 FP8精度格式具备的上述优势(更小带宽、更低功耗、更高吞吐),这意味着同等硬件未来能运行更大模型,从而大幅提升国产芯片的“性价比”。
换句话说,这些国产芯片厂商将在竞争中占据更有利位置,因此形成利好。
从另一角度看,DeepSeek通过调整精度格式,相当于主动贴合国产芯片的最佳性能点,这种软硬协同模式无疑是将国产芯片纳入统一生态坐标系。
这犹如当年的“Wintel联盟”——微软和英特尔通过深度技术绑定,构筑了个人计算机领域的生态护城河,如今则换成了DeepSeek与国产芯片厂商们。
事实上,官方在正文部分提及UE8M0 FP8的仅有一句话:
需要注意的是,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。
而且位置相当“隐蔽”,藏在一大段功能更新介绍之后。
若非官方特意在评论区补充一句,估计众人还难以察觉。
因此,这一举动无论无意还是刻意,都显得十分微妙(幽默表情)。
参考链接:
[1]https://www.zhihu.com/question/1941891000319580108
[2]https://www.zhihu.com/question/1941882763503473149/answer/1942093625908524069
[3]https://docs.nvidia.com/cuda/nvmath-python/0.3.0/tutorials/notebooks/matmul/04_fp8.html
[4]https://www.ainvest.com/news/deepseek-ue8m0-fp8-optimization-rise-china-sufficient-ai-stack-2508/
本文由主机测评网于2025-12-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251212488.html