Jay 发自 凹非寺量子位 | 公众号 QbitAI
英伟达CEO黄仁勋决策果断,面对谷歌TPU的竞争威胁,迅速以资金实力回应。
斥资200亿美元收购,目标是拿下热门AI芯片公司Groq。
这标志着英伟达在AI新时代的一次重要战略布局,同时也反映出黄仁勋对新兴芯片架构(如TPU)的警惕。
所以,Groq究竟能为英伟达带来什么?
针对这一问题,知名科技投资人Gavin Baker分享了他的见解。
他的技术分析直指英伟达帝国防守最薄弱的环节——推理。
在推理性能上,Groq的LPU远超GPU、TPU及其他ASIC。
Gavin Baker
这一观点获得大量网友认同:
GPU架构难以满足推理市场对低延迟的需求,片外HBM显存速度瓶颈明显。
网友观点
但也有网友指出,LPU采用的SRAM可能难以应对长上下文解码。
对此,Gavin认为英伟达可通过产品「混搭」策略解决。
Gavin Baker
下面详细分析——
Gavin认为,GPU在新环境下水土不服的根本原因在于——推理的两个阶段prefill和decode对芯片能力要求截然不同。
先看prefill:
这一步是让模型「读题」,将用户提供的上下文信息存储起来以备后续调用。
读题过程中,模型一次性处理所有输入token,实现并行计算。
这正是GPU的强项,其图形处理设计支持大规模并行任务。
在此阶段,模型无需即时响应,延迟可通过显示「思考中」来掩盖。
因此,prefill更看重芯片的上下文容量而非速度。
但到了decode阶段,情况完全不同。
decode是串行任务,必须逐个生成token,且用户实时目睹输出过程,延迟直接影响体验。
然而,GPU数据主要存放在HBM,而非片上存储,导致每生成一个token都需要重新从内存读取数据。
这暴露了GPU的短板:大部分算力闲置,FLOPs利用率低,实际计算量远小于prefill。
相比之下,Groq提供了更优方案——LPU。
LPU采用集成在芯片硅片中的SRAM,无需频繁读取数据,速度比GPU快100倍。即使处理单个用户,也能达到每秒300–500个token,并保持满负荷运转。
事实证明,在速度上,LPU领先于GPU、TPU及大多数ASIC。
但这并非没有代价。
相比GPU,LPU内存容量小得多。单颗Groq LPU芯片的片上SRAM仅230MB。
作为对比,英伟达H200 GPU配备了141GB HBM3e显存。
结果就是:必须将成百上千颗LPU芯片互联才能运行一个模型。
以Llama-3 70B为例,用英伟达GPU只需两到四张卡,装进小型服务器即可。而同样模型需要数百颗LPU,占地面积远超GPU数据中心。
这意味着,即便单颗LPU价格更低,整体硬件投资依然巨大。
因此,AI公司考虑LPU时,核心问题是——
一年前市场对此尚无定论,但Groq如今的业绩表明:「速度」是真实且快速增长的需求。
对英伟达而言,这不仅是新业务机会,更是潜在颠覆者暗涌的高风险领域。若错失此风口,英伟达在AI时代的主导地位可能被新玩家动摇,正如当年英伟达通过游戏业务颠覆传统对手。
为抵御竞争者侵蚀护城河,英伟达选择收购Groq作为战略疫苗。通过人才引进补齐低延迟推理短板,帮助这艘巨舰摆脱创新者困境。
TPU的崛起为英伟达的统治撕开裂缝。
通过自研芯片,谷歌摆脱了对英伟达天价GPU的依赖,大幅削减训练和推理成本,使其在服务大量免费用户时仍能维持健康财务。
谷歌通过Gemini 3 Pro的逆袭,证明GPU并非AI时代的唯一解。技术周期高速迭代下,作为AI「心脏」的芯片需随发展阶段调整。
随着基础模型进展放缓,AI竞争重心从训练层转向应用层。在应用市场,「速度」对用户体验至关重要。
此次人才收购Groq,虽承认了英伟达在推理赛道的不足,但也标志着其帝国的又一次扩张。
称霸预训练的英伟达,正借Groq东风,进军对手涌动的「推理大陆」。
而在这个新市场,英伟达或许不再能如昔日般风光。
正如Groq CEO所言,推理芯片是高销量、低利润的苦活。这与即使炒至天价仍供不应求、毛利率高达70-80%的GPU截然不同。
参考链接:[1]https://x.com/gavinsbaker/status/2004562536918598000[2]https://www.uncoveralpha.com/p/the-20-billion-admission-why-nvidia
本文由主机测评网于2026-03-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260330388.html