谷歌Gemini3推出后,资本市场呈现出一场“此消彼长”的博弈。
凭借其年度旗舰级模型,谷歌市值一度飙升超过5000亿美元。与此同时,算力巨头英伟达同期市值则缩水了6000亿美元。
如此巨大的市值“剪刀差”似乎在昭示着行业风向的转变:随着TPU驱动Gemini3展现出令人惊叹的性能,甚至Meta也被传出计划采购TPU的消息,由通用GPU所构筑的算力竞争壁垒是否正面临松动?硬件的发展范式是否正从通用GPU向专用ASIC悄然“转变”?
在腾讯科技2025 Hi Tech Day上,英诺天使基金合伙人王晟将这一议题抛给了沐曦股份、硅基流动和阶跃星辰等国产模型及基础设施领域的“卖铲人”,展开了一场关于AGI关键基础设施“稳态还是变态”的深度探讨。
沐曦股份孙国梁认为GPU的叙事逻辑依然成立:“华尔街的做空或许只是一种‘砍价策略’。”
在孙国梁看来,GPU与ASIC早在几十年前就已形成“超级稳态”,他强调,当前模型正处于高速演进阶段,GPU的通用性恰恰是其最核心的优势。“你很难将一款专用芯片直接塞进一个通用场景中。”
当被问及“开源、闭源”之争时,硅基流动胡健指出,这其实是一种“老二、老三”生存法则的博弈。“就像安卓对抗iOS。DeepSeek一出来,市场瞬间被引爆,大家只能跟进,这是一种低成本倒逼的趋势。”
胡健表示,如果模型选择不开源,智能能力便只掌握在少数巨头手中,客户将被迫依赖这些企业,并为此承受更高的成本与风险。
而在算法层面,阶跃星辰首席科学家张祥雨投下了一枚“深水炸弹”:现有的Transformer架构根本无法支撑下一代Agent的落地。
张祥雨指出,在长文本场景下,模型的“智商”会随着上下文长度的增长而急剧下滑。对于追求无限上下文感知的通用Agent而言,Transformer单向的信息流动机制存在根本性缺陷。阶跃星辰的研究表明,未来的模型架构极有可能向“Non-Linear RNN”(非线性循环神经网络)演进。
嘉宾核心看点:
孙国梁(沐曦股份高级副总裁)
“现在的AI是用工程学在‘反推’基础科学。在数学和脑科学原理取得突破之前,我们需要借助GPU进行大量的工程尝试。”
胡健(硅基流动联合创始人、首席产品官)
“模型如果不开源,智能就只属于少数企业,客户将被迫依赖这些巨头,并为此承担更高的成本与代价。”
张祥雨(阶跃星辰首席科学家)
“今天的Transformer完全不足以支撑下一代Agent。真正的挑战并非计算复杂度,而是‘智商衰减’——文本越长,模型越笨。”
王晟(英诺天使基金合伙人、北京前沿国际人工智能研究院理事长):我们先从一个最近引发热议的现象聊起。Google发布Gemini3之后,市值飙升了5000多亿美元,大家觉得Google又重新回到了舞台中央。但与此同时,英伟达却蒸发了6000多亿美元。
我想请教国梁,作为国产GPU领域的领军企业代表,你如何看待这一现象?硬件范式是否会开始向TPU/NPU这类专用芯片倾斜?它们之间究竟是竞争关系还是竞合关系?
孙国梁:架构本身并无高低优劣之分,关键在于应用场景。
说到稳态还是变态,GPU与ASIC(专用芯片)这两种架构其实早在几十年前就已经是“超级稳态”了。ASIC家族中还有BPU、APU、VPU、DSP等众多成员,它们在各自领域都有独特的优势。
但今天,我们正处于模型高速迭代的阶段。在这个阶段里,GPU的通用性是其最大的护城河。你很难把一个专用芯片放到一个通用场景中去,因为它根本处理不过来。
如今的模型更新速度极快,快的话按周计算,最慢也是按月迭代。从我们的视角来看,任何一种基础模型都远未达到“收敛”的时刻。未来相当长一段时间内,模型的高速演进仍将是常态。
此外,还有一个问题是场景的碎片化。客户的应用场景千变万化、层出不穷。在这种分散的场景下,GPU与ASIC会长期共存,但通用GPU具备更好的泛化与适配能力。
至于英伟达市值的波动,说实话,这未必不是华尔街的一种“砍价艺术”。此前华尔街已经用行动做出了选择,将英伟达推上世界第一的宝座,原因正是在当前历史阶段,通用性仍是主流。
王晟:胡健,你们做的是连接工作,左边是模型,右边是算力。这会不会导致工作量激增?比如需要重构算子、编译器、计算图?另外,从客户的采用情况来看,模型是在走向发散还是收敛?
胡健:硅基流动现在有自己的云服务,与国内其他AI Infra厂商相比,我们可能大量使用国产芯片,包括摩尔线程和沐曦的产品,我们都在用它们真实地服务客户。
整体来看,模型呈现“二八定律”。虽然每隔一两周就有新模型发布,但大家的调用非常集中,主要聚焦在DeepSeek、千问、Kimi、GLM等少数几个模型上。
尽管模型变化快,但模型的结构基本已进入“逐渐稳态”。比如DeepSeek采用MLA结构,包括MQA结构,大部分都是基于Transformer的变体。这对国产芯片来说是非常大的利好。
如果场景千变万化且并非基于Transformer,那将是CUDA的天下,因为它的软件栈已经积累了十几年的经验。但现在结构相对稳定,我们的核心任务就是帮助国产芯片实现对标英伟达同规格芯片的“端到端性能”。
这其中70%的工作是相对标准的。比如量化——大家都知道国产芯片以前主要支持INT8,但现在DeepSeek已经用上了FP8,所以针对量化的系列方案是通用的;再比如PD分离、KVCache的共享传输等。
剩下的30%需要针对不同芯片的性能瓶颈进行联合优化。比如有的芯片算子弱,有的通信弱,我们就需要做算子融合或通信库优化。总体来看,模型结构趋于收敛,这些优化方案在大规模部署和应用中具有很高的可复用性。
王晟:祥雨你是算法大师。我想直接请教:Transformer是否已经成为通向AGI的最终范式?目前学界还有RetNet、Mamba等Linear Attention范式,它们是否具备价值?
张祥雨:先给一个结论:当前的模型架构确实趋于稳定,但我们很可能处在一场巨大变革的前夜。
我最新研究的结论是:今天的Transformer并不足以支撑我们迈向下一步,尤其是在Agent时代。
先解释前半句。确实,现在的架构大多收敛到Transformer。虽然有各种Linear Attention、Sparse Attention的修补,在效率上做文章,但本质建模能力没有区别。
而且,我们发现了一个巨大的副作用:长文本真正的挑战不是计算复杂度,而是模型的“智商”会随着文本长度增加而快速下降。
对于通用Agent,它面对的是一个“无限流”的世界——它是无穷长的,从小到大所有的经历都在Context里。但今天的Transformer,无论宣称支持多少Token,我实测下来基本到8-12万个Token就不可用了,即使GPT-5可能好一点,但最终都会退化。
这里的本质原因是什么?Transformer的信息流是单向的。
所有信息只能从第L-1层流向第L层。不管Context多长,模型的深度(L)不会增加,或仅能小幅增加(对于某些最新的架构变体)。
大家想象一下,人类的记忆拥有极强的压缩机制。我今天讲的每一句话,都是我历史上所有见闻的函数。这个复杂的函数,绝不可能通过一个恒定层数的神经网络来表示。
王晟:我理解你的意思。这个成果你们研究出来了吗?
张祥雨:我们现在在一些小规模实验中取得了非常积极的结论。未来的架构,应该是一个短窗口的Transformer(建模short-term memory)叠加一个巨大的RNN(循环神经网络,用于建模episodic memory),而且是“Non-Linear RNN”(非线性RNN)。当然,这对系统效率和并行度是巨大挑战,需要软硬件协同设计(Co-design)。
主持人/王晟:张祥雨刚才的分享太有冲击性了,回头我还得消化一下。时间有限,我就特别简单提一下能源的问题,因为我们投了星环聚能。
在过去扔了氢弹之后,大家就开始探索搞“可控核聚变”。这事儿搞了80多年,以前一直说“离成功永远还有50年”,但就在这两三年,情况发生了大逆转。特别乐观的人说还要10-15年,客观一点的说20年。
这事儿是怎么发生的?这跟AI的关系非常大。
今天托卡马克装置面临最大的两个问题:
第一是怎么获得巨大的磁场来约束等离子体。这要靠材料,这就涉及到AI for Science——大家都很乐观,觉得未来过几年高温超导、常温超导通过AI就能搞出来,这能解决大问题。
第二是等离子体的控制。里面上亿度、好几亿度,外面无穷多的线圈怎么控制它?这是一个“黑箱”,你切不开来看。过去写程序太复杂了,现在AI来了,通过模拟强化学习大家突然觉得这事儿可行了。
如果不解决能源,整个人类文明都会受限。这太吸引人了。
我们讨论了芯片,现在我想讨论一下网络。
我想听一听大家实际训模型、跑模型的网络——不是实验室Demo,是实际出成果的——都已经跑到多大的规模了?
另外,英伟达的网络层次蛮多,NVLink、NVLink Switch、InfiniBand很多层次都布局了。我想知道我们现在自主构建的网络覆盖了哪些层级?
孙国梁:我认为AI Infra最大的挑战是要看清产品到底是什么。客户的需求是一个能够做大规模模型训练、推理、服务的通用性算力,而不是一张卡。
我们在全国各地也有数千卡的集群。无论是传统模型、MoE模型还是非Transformer架构的模型,我们都训练过。
另外我想补充一下能源。如果真的到用能源去解决算力问题的时候,中国有巨大优势。
核心原因是:今天我们的模型属于工程学。工程学的来源是数学推理,数学的来源是生理学和脑科学。但在基础脑科学和生物学研发上,人类还没有取得那么大的突破。所以我们在数学上没有突破,在工程学上只是在“暴力尝试”。
反而是现在我们在工程学上的很多尝试,会“反推”基础科学的演进。这是一个循环。我认为未来国产算力、基础能源和开源模型,好戏还在后头。
王晟:我们下一个问题给到胡健——开源和闭源的问题,因为我理解硅基流动上很多都是开源的模型,现在美国巨头都闭源了,中国企业担起了开源的责任。未来开源能和闭源竞争吗?会不会担心最强的模型都是闭源的,导致你们的业务空间被挤压?
胡健:现在回答这个问题比较容易了,因为之前我们刚出来的时候被一堆投资人反复问过。
我们创业初期也面临这个问题。我们坚定两点:开源肯定会起来,推理会是主流。
开源与闭源核心看两点:
第一是竞争格局。往往是处于第二、第三梯队的企业,为了不被头部完全抢占市场份额,必须开源。开源后会有更多人跟你玩,就能逆转形势。就像安卓对抗iOS。DeepSeek一出来,市场炸了,大家就都得跟进,这是一种低成本倒逼的趋势。
第二是需求。智能如果只掌握在少数企业手里,企业客户为此会承担更高的成本与代价。企业有自己独特的数据,不敢交给闭源模型,因为有隐私和壁垒问题。为了数据可控、成本更低,需求端会倒逼开源持续存在。
就像安卓最终形成了自己的商业模式一样,开源模型未来也会有类似广告或服务的商业模式。
王晟:祥雨,阶跃刚刚发布了一个针对安卓手机的Agent:GELab-Zero。这是测试成分更多,还是真的能在手机产业落地?
张祥雨(阶跃星辰):为什么在这个时间我们要做GELab-Zero这样的工作,是因为它是智能发展的必经之路。
我看智能发展有两条轴,横轴乘以纵轴的面积,就是智能化水平:
横轴是“智能进化”:
第一代是ChatBot,背后的算法是NTP(Next Token Prediction);
第二代是Reasoner,背后的算法是RLVR(Verifiable Reward强化学习);
第三代Agent是什么?现在大家不知道。我自己擅作主张补上,它背后的算法原理应该是“自主学习与在线学习”。
我刚刚说的Transformer架构必然会有一次大的革新,指的是在这条横轴上,我们正在走向下一代的路上。当然模型架构革新也只是一小块,它属于分层记忆机制建模的一部分。除此之外,自主学习和在线学习还需要解决如何进行环境探索、如何利用环境反馈、如何在线更新模型参数的问题。
纵轴是“模态”:从语言、语音,到视觉多模态,再到最困难的具身智能。
在具身和多模态之间,夹着一个“虚拟世界的具身”——就是像人一样操作手机GUI。这比物理具身简单,但比纯文本复杂。
我们要在这方面走出一步。GELab-Zero的技术路径非常有特色:它是一个小模型,蒸馏了更大的视觉、语言模型的能力,通过搭建强化学习环境,赋予它在手机APP里探索的能力。
更关键的是,我们采用了“端云结合”的能力:在必要时发出请求调用云端模型,并且这两个模型是协同训练(Co-training)的,通过RL Trajectory共同形成梯度反传。这是一个非常重要的技术创新点。
王晟:再问个问题,刚才那轮问题的延续。我看到你的老战友何恺明最近也频频出手,最近发了两个很重要的论文,一个是JiT(Just image Transformer),他觉得采用去噪的方法不太对,直接一把可能就预测图像的结果了。还有一个是iMF(Improved MeanFlow)。它能够变得比Diffusion更好吗?
张祥雨:对,不过这些工作也是在Diffusion框架上打补丁,并未真正“颠覆”Diffusion。恺明最近频频在生成模型基础方向发力,原因很简单:Diffusion这一套在“老CV人”的眼里,是最不Make Sense的。它从一个分布出发,加噪再去噪,这个过程没有任何的语义,并且已经有很多工作展示了在diffusion过程中引入语义对齐可以取得显著的提升,这更说明了原始的diffusion框架是有问题的。
我解释一下为什么要这样做。
深度学习最喜欢的一个词叫“端到端”——从已知分布直接用一个深层神经网络一步达到结果。但在很长一段时间里,模型的“单步推理能力”是不够的。
这就像在语言模型里,单步推理不够深,所以我们要引入CoT(思维链)。你可以认为视觉生成里的“加噪去噪”,它的每一个Step就是一个CoT。
但是!这个CoT跟语言的CoT不一样,它不符合人类理解和形成图像的过程。我们叫它“Bad CoT Pattern”——因为它没有语义。
不过,虽然听上去不太合理,在“类Diffusion”框架下目前还没有太好的去掉加噪-去噪过程的实践。其他的框架,例如基于自回归的图像生成,也同样有缺少语义和单步推理能力受限的问题。
所以目前的研究趋势,一方面是如何给Diffusion等框架引入更丰富的语义,例如刚刚提到的Semantic Alignment,又或者是生成理解一体化训练,都属于这个范畴。另一方面就是尽可能把框架做得更简单、更为端到端,尽量减少人工引入的非语义的元素,恺明组最近的工作大都集中在这一块。
此外,也有人尝试直接提升模型的单步推理能力,例如把loop transformer等latent reasoning工具引入图像生成中,等等。
王晟:我们再拉回到你做的这个非常重要的工作,为什么不能是Memory被外挂,因为你说很多的上下文太长导致模型输出不利,我们为什么不能有一个模型专门去抽取,把Memory抽取更好的专用模型,再给到大模型。
张祥雨:当然是可以的,像您说的在草稿纸上人类也会做这件事,这属于外存。但是我们现在最主要的还是要建模智能体的内存,因为记忆是人类智能的核心组件之一。
人脑的记忆机制是一个非常复杂的,而且分层的记忆机制,从已实现的短到长,比如最短的叫做感知记忆,也叫瞬时记忆;而稍微长一些、大概持续数秒的叫做短期记忆,也可以叫工作记忆。
其中瞬时和短时的记忆,它的很多特性,比如无损性,比如说全连接的特性,今天transformer的上下文机制已经可以建模的很好了。
真正棘手的是长期记忆的建模,我们现在主流的架构还做得不是很好,一个叫Episodic Memory(情境记忆),你会发现大量的论文都在做这一块,它和fast weight update机制密切相关。还有一个叫做Semantic Memory(语义记忆),这个和slow weight update机制有关,这一块用模型参数本身可以建模,它的难度在于怎么Update。
王晟:我记得谷歌刚发了一篇论文,不断地Update模型参数。
张祥雨:对,它那个是走向Online Learning非常必要的。
王晟:今天的讨论特别符合我们“稳态还是变态”的议题。
我发现每一家头部企业都有坚实的基本盘,但同时都在敞开胸怀拥抱变化。Transformer可能不是终局,GPU还在进化,而能源(比如我们投资的可控核聚变)和工程的挑战才刚刚开始。这一波AGI可能刚刚起步,真正的蝴蝶效应,还在后头。
本文由主机测评网于2026-03-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329585.html