当前位置:首页 > 科技资讯 > 正文

中国芯片市场的崛起:从依赖到自主

中国芯片市场的崛起:从依赖到自主 中国芯片市场 国产GPU 英伟达 摩尔线程 第1张

当“H800禁售令”在两年前引发中国客户的恐慌性囤货狂潮时,英伟达的全球营收创新高却伴随着中国区占比的显著滑落。市场的情绪,已从最初的恐慌转变为如今的淡然。

面对华尔街分析师关于“特供版芯片在中国市场订单不及预期”的尖锐追问,这位标志性的皮衣CEO选择了沉默。他试图以“复杂的监管环境”作为托词,但那份无力感在所有人的心中都显得那么明显。

为了合规而自我阉割的特供版芯片,在性能上被国产“新贵”们逼平,高昂的供应链成本又使价格居高不下。那个曾经只需在PPT上画张卡,就能让中国互联网巨头排队提现金的时代,已彻底成为历史。

精准的刀法与失衡的性价比

英伟达再次推出针对中国市场的特供芯片H20时,其算盘打得极为精明:通过降低芯片的峰值性能以符合美国出口管制要求,同时保留高速互联带宽和CUDA生态的兼容性。然而,市场却给了这种傲慢一记响亮的耳光。

为了满足美国的双重限制,H20几乎被“阉割”得面目全非。在实际的大规模训练集群中,其有效算力甚至不如两年前囤积的H800。

从技术逻辑上看,AI大模型的训练确实依赖高带宽,但推理和微调场景对算力密度的要求同样严苛。H20为了合规,将算力“阉割”到了H100的20%甚至更低,但其晶圆面积、封装成本并未显著下降。

这导致了一个极其荒谬的TCO模型:中国客户需要购买比过去多出三倍甚至五倍数量的显卡,租用更大的机房空间,消耗更多的电力,搭建更复杂的网络拓扑,仅仅是为了达到两年前一张A100卡就能解决的算力水平。

对于精打细算的中国互联网大厂和智算中心运营商来说,这笔账显然是不划算的。因此,H20的渠道价格开始松动,从最初预期的1.2万—1.5万美元高位,一路下探至10万元人民币左右,甚至在某些大单采购中出现了比昇腾910B还要低的价格倒挂。

英伟达似乎陷入了一个死循环:为了合规,必须降低性能;为了维持高毛利和应对复杂的供应链合规成本,价格无法大幅下调;而性能下降、价格坚挺的结果,就是彻底将中低端市场和推理市场拱手让人。

这种局面的出现,并非英伟达技术不行了,而是竞争参照系变了。摩尔线程是这群新贵中最具代表性的一员。如果不说它是国产,你甚至会以为它是英伟达的某个“中国分部”。摩尔线程极度强调“全功能GPU”的概念。

不仅能做AI计算,还要能做3D图形渲染、视频编解码。这种策略极其聪明地切入了英伟达的腹地,它不仅想替代A100/H100,还想替代RTX系列。在2024年到2025年的窗口期,摩尔线程的“夸娥”万卡集群解决方案开始在业界崭露头角。

它解决了一个核心痛点:对于那些不想被生态完全绑定,又买不到满血英伟达的中型企业和科研机构来说,需要一个架构上更接近传统GPU、迁移成本更低的替代方案。摩尔线程的MUSA架构在设计之初就考虑了对CUDA代码的兼容性,大大降低了开发者的迁移门槛。

其市值已悍然站上3000亿元人民币大关,成为“国产GPU第一股”在科创板站稳了脚步。摩尔线程从受理到过会仅用时88天,也创下了科创板的“闪电纪录”,对于一家成立仅5年的公司而言,这种“跑步上市”的盛况在A股历史上极为罕见。

与此同时,壁仞科技在港交所的招股进入最后冲刺阶段,拟募资额接近50亿港元。翻开招股书,“独角兽”们的财务报表依旧“鲜血淋漓”,基石投资者名单中不乏顶级国资与险资的身影。

国产算力不再仅仅是“备胎”

二级市场给予的高估值,透支的是未来十年的预期。投资者赌的不仅是某一家公司的技术,更是赌在中国这个全球最大的半导体消费市场中必然会诞生一到两家能与英伟达分庭抗礼的巨头。

从昇腾910C在核心训练集群的规模化部署到DeepSeek等头部大模型厂商公开为国产算力站台中国芯片厂商不再是“备胎”,而是真正坐上了牌桌。对于面临巨大盈利压力的云厂商来说继续迷信英伟达就是对股东不负责任。

字节跳动、阿里巴巴、腾讯等互联网巨头在2025年的算力采购策略上表现出惊人的一致性。不约而同地将英伟达的存量高端卡集中用于极少数超大模型的预训练而在占据算力消耗80%以上的推理和微调环节激进地引入国产算力。

字节跳动在2025年的推荐算法集群中非英伟达芯片的占比更是首次突破了40%。推荐算法可以说是字节跳动的利润奶牛敢于在核心业务上动刀说明国产芯片的稳定性已经通过了最严苛的实战考验。

如果说商业逻辑的转变是水面上的波澜那么制造环节的惊心动魄则是水面下的暗流。美国商务部在今年进一步收紧了对华出口HBM的限制。不仅是顶级的HBM3e连基础版本的HBM3也被列入了严控范围。

这对于试图追赶英伟达的国产GPU厂商来说无异于釜底抽薪。没有HBM高端GPU就是一块废硅。国产GPU厂商开始学会“看菜吃饭”既然买不到最好的HBM那就通过架构创新来弥补。

摩尔线程和壁仞科技在2025年推出的新一代产品中普遍采用了更大的片上SRAM缓存和优化的显存压缩算法以降低对显存带宽的依赖。这种“穷人家的孩子早当家”的设计思路虽然在极限性能上不如英伟达的暴力堆料但在实际工程应用中却展现出了极高的效率。

通富微电、长电科技等国内封测巨头在国产2.5D封装技术上也取得了实质性突破。尽管良率初期惨不忍睹但依靠国内庞大的市场需求进行“暴力迭代”到了2025年第三季度这一数字已经被拉升至40%—60%的区间。

虽然与台积电90%以上的成熟良率相比仍显稚嫩但这已经跨越了“商业化量产”的盈亏平衡点。这意味着国产大芯片不再是实验室里的展品而是可以源源不断流向数据中心的工业品。

从“能用”到“好用”

长期以来英伟达最坚固的壁垒并非GPU本身而是CUDA。那个让无数开发者“不得不爱”的软件生态曾被认为是国产芯片不可逾越的天堑。这个庞大、复杂且极其好用的软件生态像毒品一样让全球的开发者欲罢不能。

在中国过去十年的AI繁荣也是建立在CUDA之上的。因此英伟达曾自信地认为:只要CUDA还在中国客户就逃不出它的手掌心。但当“买不到”成为常态依赖CUDA就变成了一种巨大的经营风险。

对于中国企业而言如果底层的算力基座构建在随时可能被切断的CUDA之上那么上层的万丈高楼皆为虚幻。这种安全意识的觉醒促使整个行业开始联手构建属于中国自己的软件标准。

而这道天堑被填平的速度超出了所有人的预期。以摩尔线程和壁仞为代表通过兼容CUDA代码降低迁移成本。摩尔线程的MUSA在2025年开发者大会上展示了惊人的兼容性数万行代码的迁移时间被压缩到了小时级。

在2025年绝大多数算法工程师不再需要手写底层的CUDA算子。通过编译器技术的突破开发者只需关注上层的Python代码底层的适配工作由编译器自动分发到不同的后端无论是Nvidia GPU还是Ascend亦或是海光DCU。

技术层面的“去CUDA化”正在加速。百度飞桨、阿里通义千问、腾讯混元大模型都在底层代码层面做了大量的适配工作。通过编译器优化、算子库重写以及自动转换工具在主流的大模型训练和推理任务中这种差距已经被缩小到了“可接受”的范围。

这种“去底层化”的趋势极大地降低了国产芯片的迁移门槛更重要的是围绕CANN形成了一个庞大的开发者社区。在GitHub和Gitee上针对昇腾芯片的模型适配代码库数量在2025年呈现出指数级增长。

除了在大模型训练端的厮杀国产GPU开始渗透进渲染、数字孪生、云游戏等边缘市场。摩尔线程的“夸娥”千卡集群在数字人渲染上的应用证明了GPU不仅仅只有AI这一条路可走。

海光信息在2025年财报中也披露其DCU产品在通算领域的生态兼容性已达到95%以上。

当软件不再是瓶颈硬件的性价比优势就会被无限放大。在占据市场90%份额的成熟模型训练和推理场景中CUDA的“神谕”地位已经动摇。

当然我们必须清醒地看到“碎片化”依然是国产GPU的顽疾。海光有DCU摩尔线程有MUSA壁仞有BIRENSUPA……每一家都有一套自己的编程模型。对于下游软件开发商来说适配这七八套系统简直是噩梦。

2025年下半年行业内开始出现整合的呼声。虽然物理层面的合并尚早但软件层面的互通标准例如OpenCL的某些国产化变体开始被提上日程。谁能统一这个破碎的江湖谁就是下一个时代的盟主。