Jay 发自 凹非寺量子位 | 公众号 QbitAI
老黄出手,谷歌TPU威胁刚至,便以钞能力回应。
200亿美元投入,只为拉拢炙手可热的「铲子新工厂」——Groq。
这标志着芯片巨头在AI新时代的重大布局,同时也反映出老黄对新芯片范式的担忧。
那么,Groq究竟能为英伟达带来什么?
知名科技投资人Gavin Baker对此发表了观点。
他的技术剖析,直指英伟达帝国防守最薄弱的地方——推理。
推理方面,Groq LPU的速度远超GPU、TPU,以及目前所见的任何ASIC。
Gavin Baker
这一观点获得大量网友点赞:
GPU架构无法满足推理市场低延迟需求,片外HBM显存速度太拖后腿。
网友观点
也有网友指出,LPU所采用的SRAM,或许并不能胜任长文本decode。
对此,Gavin认为英伟达可以通过产品「混搭」的方式解决。
Gavin Baker
具体来看——
Gavin认为,GPU在新时代水土不服的根源在于推理过程的两个阶段——prefill和decode,对芯片能力有截然不同的要求。
先看prefill:
简单来说,就是让模型「读题」,把用户提供的关键信息记好,用于后续调用。这个过程中,模型会一次性吃下用户所给的上下文,所有输入token同时计算。
这正是GPU擅长的领域,它专为图形处理而生,适合处理并行任务。在这个准备阶段,模型不用急着响应用户问题。
因此,相比「速度」,prefiil需要芯片有更大的上下文容量。
但到了decode阶段,这套逻辑不再适用。decode是串行任务,必须逐个token计算。更关键的是,用户能看到token被逐个「打」出来的过程。这种情况下,延迟对用户体验是致命的。
然而,GPU的数据主要存放在HBM,而非紧贴算力核心的片上存储。这意味着每生成一个token,GPU都需要重新从内存中读取数据。
这时,GPU的问题就暴露出来了——大部分算力闲置,FLOPs用不满,常常在等内存搬数据,实际计算量远小于prefill。
相比之下,Groq有更好的解决方案——LPU。
LPU使用直接集成在芯片硅片中的SRAM,无需读取数据,速度比GPU快100倍。即使只处理单个用户,也能跑出每秒300–500个token的速度,且始终保持满负荷运转。
事实证明,在速度上,LPU几乎无敌——不仅优于GPU、TPU,也优于市面上绝大多数ASIC。
一年前市场无法给出答案。但从Groq如今的业绩情况来看已经非常明确:对「速度」的巨大需求正在高速成长。
对英伟达而言,这不仅是新业务盘,更是高风险地带。若错失风口,其在AI时代的机会可能会被新玩家颠覆。
TPU的崛起给英伟达的金钟罩撕开了一道裂缝。
通过自研芯片,谷歌成功摆脱了对英伟达天价GPU的依赖。这大幅降低了训练和推理成本,让谷歌在服务大量免费用户的情况下依然保持健康财务账面。
随着基础模型进展放缓,AI竞争重点转向应用层。而在这个市场,「速度」至关重要。
本文由主机测评网于2026-06-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260647104.html