当前位置：首页 > 科技资讯 > 正文

AI硬件格局生变：GPU霸主地位遭挑战，未来架构向何方？

主机测评网
科技资讯
2026-03-08
748

AI硬件格局生变：GPU霸主地位遭挑战，未来架构向何方？ GPU TPU AI架构开源模型第1张

谷歌Gemini3推出后，资本市场呈现出一场“此消彼长”的博弈。

凭借其年度旗舰级模型，谷歌市值一度飙升超过5000亿美元。与此同时，算力巨头英伟达同期市值则缩水了6000亿美元。

如此巨大的市值“剪刀差”似乎在昭示着行业风向的转变：随着TPU驱动Gemini3展现出令人惊叹的性能，甚至Meta也被传出计划采购TPU的消息，由通用GPU所构筑的算力竞争壁垒是否正面临松动？硬件的发展范式是否正从通用GPU向专用ASIC悄然“转变”？

在腾讯科技2025 Hi Tech Day上，英诺天使基金合伙人王晟将这一议题抛给了沐曦股份、硅基流动和阶跃星辰等国产模型及基础设施领域的“卖铲人”，展开了一场关于AGI关键基础设施“稳态还是变态”的深度探讨。

沐曦股份孙国梁认为GPU的叙事逻辑依然成立：“华尔街的做空或许只是一种‘砍价策略’。”

在孙国梁看来，GPU与ASIC早在几十年前就已形成“超级稳态”，他强调，当前模型正处于高速演进阶段，GPU的通用性恰恰是其最核心的优势。“你很难将一款专用芯片直接塞进一个通用场景中。”

当被问及“开源、闭源”之争时，硅基流动胡健指出，这其实是一种“老二、老三”生存法则的博弈。“就像安卓对抗iOS。DeepSeek一出来，市场瞬间被引爆，大家只能跟进，这是一种低成本倒逼的趋势。”

胡健表示，如果模型选择不开源，智能能力便只掌握在少数巨头手中，客户将被迫依赖这些企业，并为此承受更高的成本与风险。

而在算法层面，阶跃星辰首席科学家张祥雨投下了一枚“深水炸弹”：现有的Transformer架构根本无法支撑下一代Agent的落地。

张祥雨指出，在长文本场景下，模型的“智商”会随着上下文长度的增长而急剧下滑。对于追求无限上下文感知的通用Agent而言，Transformer单向的信息流动机制存在根本性缺陷。阶跃星辰的研究表明，未来的模型架构极有可能向“Non-Linear RNN”（非线性循环神经网络）演进。

嘉宾核心看点：

孙国梁（沐曦股份高级副总裁）

“现在的AI是用工程学在‘反推’基础科学。在数学和脑科学原理取得突破之前，我们需要借助GPU进行大量的工程尝试。”

胡健（硅基流动联合创始人、首席产品官）

“模型如果不开源，智能就只属于少数企业，客户将被迫依赖这些巨头，并为此承担更高的成本与代价。”

张祥雨（阶跃星辰首席科学家）

“今天的Transformer完全不足以支撑下一代Agent。真正的挑战并非计算复杂度，而是‘智商衰减’——文本越长，模型越笨。”

以下为圆桌实录，在不改变原意的前提下略有删减与调整

01 万亿市值的拷问——GPU还是TPU？

王晟（英诺天使基金合伙人、北京前沿国际人工智能研究院理事长）：我们先从一个最近引发热议的现象聊起。Google发布Gemini3之后，市值飙升了5000多亿美元，大家觉得Google又重新回到了舞台中央。但与此同时，英伟达却蒸发了6000多亿美元。

我想请教国梁，作为国产GPU领域的领军企业代表，你如何看待这一现象？硬件范式是否会开始向TPU/NPU这类专用芯片倾斜？它们之间究竟是竞争关系还是竞合关系？

孙国梁：架构本身并无高低优劣之分，关键在于应用场景。

说到稳态还是变态，GPU与ASIC（专用芯片）这两种架构其实早在几十年前就已经是“超级稳态”了。ASIC家族中还有BPU、APU、VPU、DSP等众多成员，它们在各自领域都有独特的优势。

但今天，我们正处于模型高速迭代的阶段。在这个阶段里，GPU的通用性是其最大的护城河。你很难把一个专用芯片放到一个通用场景中去，因为它根本处理不过来。

如今的模型更新速度极快，快的话按周计算，最慢也是按月迭代。从我们的视角来看，任何一种基础模型都远未达到“收敛”的时刻。未来相当长一段时间内，模型的高速演进仍将是常态。

此外，还有一个问题是场景的碎片化。客户的应用场景千变万化、层出不穷。在这种分散的场景下，GPU与ASIC会长期共存，但通用GPU具备更好的泛化与适配能力。

至于英伟达市值的波动，说实话，这未必不是华尔街的一种“砍价艺术”。此前华尔街已经用行动做出了选择，将英伟达推上世界第一的宝座，原因正是在当前历史阶段，通用性仍是主流。

02 中间层的“缝合”——模型在收敛吗？

王晟：胡健，你们做的是连接工作，左边是模型，右边是算力。这会不会导致工作量激增？比如需要重构算子、编译器、计算图？另外，从客户的采用情况来看，模型是在走向发散还是收敛？

胡健：硅基流动现在有自己的云服务，与国内其他AI Infra厂商相比，我们可能大量使用国产芯片，包括摩尔线程和沐曦的产品，我们都在用它们真实地服务客户。

整体来看，模型呈现“二八定律”。虽然每隔一两周就有新模型发布，但大家的调用非常集中，主要聚焦在DeepSeek、千问、Kimi、GLM等少数几个模型上。

尽管模型变化快，但模型的结构基本已进入“逐渐稳态”。比如DeepSeek采用MLA结构，包括MQA结构，大部分都是基于Transformer的变体。这对国产芯片来说是非常大的利好。

如果场景千变万化且并非基于Transformer，那将是CUDA的天下，因为它的软件栈已经积累了十几年的经验。但现在结构相对稳定，我们的核心任务就是帮助国产芯片实现对标英伟达同规格芯片的“端到端性能”。

这其中70%的工作是相对标准的。比如量化——大家都知道国产芯片以前主要支持INT8，但现在DeepSeek已经用上了FP8，所以针对量化的系列方案是通用的；再比如PD分离、KVCache的共享传输等。

剩下的30%需要针对不同芯片的性能瓶颈进行联合优化。比如有的芯片算子弱，有的通信弱，我们就需要做算子融合或通信库优化。总体来看，模型结构趋于收敛，这些优化方案在大规模部署和应用中具有很高的可复用性。

03 算法的“变态”——Transformer一定是通向AGI的最终范式吗？

王晟：祥雨你是算法大师。我想直接请教：Transformer是否已经成为通向AGI的最终范式？目前学界还有RetNet、Mamba等Linear Attention范式，它们是否具备价值？

张祥雨：先给一个结论：当前的模型架构确实趋于稳定，但我们很可能处在一场巨大变革的前夜。

我最新研究的结论是：今天的Transformer并不足以支撑我们迈向下一步，尤其是在Agent时代。

先解释前半句。确实，现在的架构大多收敛到Transformer。虽然有各种Linear Attention、Sparse Attention的修补，在效率上做文章，但本质建模能力没有区别。

而且，我们发现了一个巨大的副作用：长文本真正的挑战不是计算复杂度，而是模型的“智商”会随着文本长度增加而快速下降。

对于通用Agent，它面对的是一个“无限流”的世界——它是无穷长的，从小到大所有的经历都在Context里。但今天的Transformer，无论宣称支持多少Token，我实测下来基本到8-12万个Token就不可用了，即使GPT-5可能好一点，但最终都会退化。

这里的本质原因是什么？Transformer的信息流是单向的。

所有信息只能从第L-1层流向第L层。不管Context多长，模型的深度（L）不会增加，或仅能小幅增加（对于某些最新的架构变体）。

大家想象一下，人类的记忆拥有极强的压缩机制。我今天讲的每一句话，都是我历史上所有见闻的函数。这个复杂的函数，绝不可能通过一个恒定层数的神经网络来表示。

王晟：我理解你的意思。这个成果你们研究出来了吗？

张祥雨：我们现在在一些小规模实验中取得了非常积极的结论。未来的架构，应该是一个短窗口的Transformer（建模short-term memory）叠加一个巨大的RNN（循环神经网络，用于建模episodic memory），而且是“Non-Linear RNN”（非线性RNN）。当然，这对系统效率和并行度是巨大挑战，需要软硬件协同设计（Co-design）。

04 物理瓶颈——被AI加速的“可控核聚变”与万卡集群

主持人/王晟：张祥雨刚才的分享太有冲击性了，回头我还得消化一下。时间有限，我就特别简单提一下能源的问题，因为我们投了星环聚能。

在过去扔了氢弹之后，大家就开始探索搞“可控核聚变”。这事儿搞了80多年，以前一直说“离成功永远还有50年”，但就在这两三年，情况发生了大逆转。特别乐观的人说还要10-15年，客观一点的说20年。

这事儿是怎么发生的？这跟AI的关系非常大。

今天托卡马克装置面临最大的两个问题：

第一是怎么获得巨大的磁场来约束等离子体。这要靠材料，这就涉及到AI for Science——大家都很乐观，觉得未来过几年高温超导、常温超导通过AI就能搞出来，这能解决大问题。

第二是等离子体的控制。里面上亿度、好几亿度，外面无穷多的线圈怎么控制它？这是一个“黑箱”，你切不开来看。过去写程序太复杂了，现在AI来了，通过模拟强化学习大家突然觉得这事儿可行了。

如果不解决能源，整个人类文明都会受限。这太吸引人了。

我们讨论了芯片，现在我想讨论一下网络。

我想听一听大家实际训模型、跑模型的网络——不是实验室Demo，是实际出成果的——都已经跑到多大的规模了？

另外，英伟达的网络层次蛮多，NVLink、NVLink Switch、InfiniBand很多层次都布局了。我想知道我们现在自主构建的网络覆盖了哪些层级？

孙国梁：我认为AI Infra最大的挑战是要看清产品到底是什么。客户的需求是一个能够做大规模模型训练、推理、服务的通用性算力，而不是一张卡。

我们在全国各地也有数千卡的集群。无论是传统模型、MoE模型还是非Transformer架构的模型，我们都训练过。

另外我想补充一下能源。如果真的到用能源去解决算力问题的时候，中国有巨大优势。

核心原因是：今天我们的模型属于工程学。工程学的来源是数学推理，数学的来源是生理学和脑科学。但在基础脑科学和生物学研发上，人类还没有取得那么大的突破。所以我们在数学上没有突破，在工程学上只是在“暴力尝试”。

反而是现在我们在工程学上的很多尝试，会“反推”基础科学的演进。这是一个循环。我认为未来国产算力、基础能源和开源模型，好戏还在后头。

05 开源与闭源的终极博弈

王晟：我们下一个问题给到胡健——开源和闭源的问题，因为我理解硅基流动上很多都是开源的模型，现在美国巨头都闭源了，中国企业担起了开源的责任。未来开源能和闭源竞争吗？会不会担心最强的模型都是闭源的，导致你们的业务空间被挤压？

胡健：现在回答这个问题比较容易了，因为之前我们刚出来的时候被一堆投资人反复问过。

我们创业初期也面临这个问题。我们坚定两点：开源肯定会起来，推理会是主流。

开源与闭源核心看两点：

第一是竞争格局。往往是处于第二、第三梯队的企业，为了不被头部完全抢占市场份额，必须开源。开源后会有更多人跟你玩，就能逆转形势。就像安卓对抗iOS。DeepSeek一出来，市场炸了，大家就都得跟进，这是一种低成本倒逼的趋势。

第二是需求。智能如果只掌握在少数企业手里，企业客户为此会承担更高的成本与代价。企业有自己独特的数据，不敢交给闭源模型，因为有隐私和壁垒问题。为了数据可控、成本更低，需求端会倒逼开源持续存在。

就像安卓最终形成了自己的商业模式一样，开源模型未来也会有类似广告或服务的商业模式。

06 手机上的AGI——从推理到自主学习

王晟：祥雨，阶跃刚刚发布了一个针对安卓手机的Agent：GELab-Zero。这是测试成分更多，还是真的能在手机产业落地？

张祥雨（阶跃星辰）：为什么在这个时间我们要做GELab-Zero这样的工作，是因为它是智能发展的必经之路。

我看智能发展有两条轴，横轴乘以纵轴的面积，就是智能化水平：

横轴是“智能进化”：

第一代是ChatBot，背后的算法是NTP（Next Token Prediction）；

第二代是Reasoner，背后的算法是RLVR（Verifiable Reward强化学习）；

第三代Agent是什么？现在大家不知道。我自己擅作主张补上，它背后的算法原理应该是“自主学习与在线学习”。

我刚刚说的Transformer架构必然会有一次大的革新，指的是在这条横轴上，我们正在走向下一代的路上。当然模型架构革新也只是一小块，它属于分层记忆机制建模的一部分。除此之外，自主学习和在线学习还需要解决如何进行环境探索、如何利用环境反馈、如何在线更新模型参数的问题。

纵轴是“模态”：从语言、语音，到视觉多模态，再到最困难的具身智能。

在具身和多模态之间，夹着一个“虚拟世界的具身”——就是像人一样操作手机GUI。这比物理具身简单，但比纯文本复杂。

我们要在这方面走出一步。GELab-Zero的技术路径非常有特色：它是一个小模型，蒸馏了更大的视觉、语言模型的能力，通过搭建强化学习环境，赋予它在手机APP里探索的能力。

更关键的是，我们采用了“端云结合”的能力：在必要时发出请求调用云端模型，并且这两个模型是协同训练（Co-training）的，通过RL Trajectory共同形成梯度反传。这是一个非常重要的技术创新点。

07 “老CV人”的反击——颠覆Diffusion

王晟：再问个问题，刚才那轮问题的延续。我看到你的老战友何恺明最近也频频出手，最近发了两个很重要的论文，一个是JiT（Just image Transformer），他觉得采用去噪的方法不太对，直接一把可能就预测图像的结果了。还有一个是iMF（Improved MeanFlow）。它能够变得比Diffusion更好吗？

张祥雨：对，不过这些工作也是在Diffusion框架上打补丁，并未真正“颠覆”Diffusion。恺明最近频频在生成模型基础方向发力，原因很简单：Diffusion这一套在“老CV人”的眼里，是最不Make Sense的。它从一个分布出发，加噪再去噪，这个过程没有任何的语义，并且已经有很多工作展示了在diffusion过程中引入语义对齐可以取得显著的提升，这更说明了原始的diffusion框架是有问题的。

我解释一下为什么要这样做。

深度学习最喜欢的一个词叫“端到端”——从已知分布直接用一个深层神经网络一步达到结果。但在很长一段时间里，模型的“单步推理能力”是不够的。

这就像在语言模型里，单步推理不够深，所以我们要引入CoT（思维链）。你可以认为视觉生成里的“加噪去噪”，它的每一个Step就是一个CoT。

但是！这个CoT跟语言的CoT不一样，它不符合人类理解和形成图像的过程。我们叫它“Bad CoT Pattern”——因为它没有语义。

不过，虽然听上去不太合理，在“类Diffusion”框架下目前还没有太好的去掉加噪-去噪过程的实践。其他的框架，例如基于自回归的图像生成，也同样有缺少语义和单步推理能力受限的问题。

所以目前的研究趋势，一方面是如何给Diffusion等框架引入更丰富的语义，例如刚刚提到的Semantic Alignment，又或者是生成理解一体化训练，都属于这个范畴。另一方面就是尽可能把框架做得更简单、更为端到端，尽量减少人工引入的非语义的元素，恺明组最近的工作大都集中在这一块。

此外，也有人尝试直接提升模型的单步推理能力，例如把loop transformer等latent reasoning工具引入图像生成中，等等。

王晟：我们再拉回到你做的这个非常重要的工作，为什么不能是Memory被外挂，因为你说很多的上下文太长导致模型输出不利，我们为什么不能有一个模型专门去抽取，把Memory抽取更好的专用模型，再给到大模型。

张祥雨：当然是可以的，像您说的在草稿纸上人类也会做这件事，这属于外存。但是我们现在最主要的还是要建模智能体的内存，因为记忆是人类智能的核心组件之一。

人脑的记忆机制是一个非常复杂的，而且分层的记忆机制，从已实现的短到长，比如最短的叫做感知记忆，也叫瞬时记忆；而稍微长一些、大概持续数秒的叫做短期记忆，也可以叫工作记忆。

其中瞬时和短时的记忆，它的很多特性，比如无损性，比如说全连接的特性，今天transformer的上下文机制已经可以建模的很好了。

真正棘手的是长期记忆的建模，我们现在主流的架构还做得不是很好，一个叫Episodic Memory（情境记忆），你会发现大量的论文都在做这一块，它和fast weight update机制密切相关。还有一个叫做Semantic Memory（语义记忆），这个和slow weight update机制有关，这一块用模型参数本身可以建模，它的难度在于怎么Update。

王晟：我记得谷歌刚发了一篇论文，不断地Update模型参数。

张祥雨：对，它那个是走向Online Learning非常必要的。

王晟：今天的讨论特别符合我们“稳态还是变态”的议题。

我发现每一家头部企业都有坚实的基本盘，但同时都在敞开胸怀拥抱变化。Transformer可能不是终局，GPU还在进化，而能源（比如我们投资的可控核聚变）和工程的挑战才刚刚开始。这一波AGI可能刚刚起步，真正的蝴蝶效应，还在后头。

性价比服务器服务器教程

本文由主机测评网于2026-03-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260329585.html

AI硬件格局生变：GPU霸主地位遭挑战，未来架构向何方？

以下为圆桌实录，在不改变原意的前提下略有删减与调整

01

万亿市值的拷问——GPU还是TPU？

02

中间层的“缝合”——模型在收敛吗？

03

算法的“变态”——Transformer一定是通向AGI的最终范式吗？

04

物理瓶颈——被AI加速的“可控核聚变”与万卡集群

05

开源与闭源的终极博弈

06

手机上的AGI——从推理到自主学习

07

“老CV人”的反击——颠覆Diffusion

苹果公司在日本下调“苹果税”并开放第三方应用市场，全球监管压力下“围墙花园”持续松动

Ubuntu 24.04下Jitsi Meet完整部署教程（从零搭建私有视频会议系统）

AI硬件格局生变：GPU霸主地位遭挑战，未来架构向何方？

以下为圆桌实录，在不改变原意的前提下略有删减与调整

01

万亿市值的拷问——GPU还是TPU？

02

中间层的“缝合”——模型在收敛吗？

03

算法的“变态”——Transformer一定是通向AGI的最终范式吗？

04

物理瓶颈——被AI加速的“可控核聚变”与万卡集群

05

开源与闭源的终极博弈

06

手机上的AGI——从推理到自主学习

07

“老CV人”的反击——颠覆Diffusion

苹果公司在日本下调“苹果税”并开放第三方应用市场，全球监管压力下“围墙花园”持续松动

Ubuntu 24.04下Jitsi Meet完整部署教程（从零搭建私有视频会议系统）

相关文章