当前位置:首页 > 科技资讯 > 正文

谷歌TPUv7对决英伟达:AI算力霸权新战役

谷歌正将TPU从内部自用转向外部商业化,使其成为挑战英伟达霸主地位的尖刀!CUDA的护城河是否还能固若金汤?阅读这篇SemiAnalysis的深度解析,你将首次从“算力经济”角度,看透谷歌隐藏的战略布局。

谷歌Gemini 3模型的巨大成功,让其核心支撑TPU再度成为全球焦点。

资本市场的反应非常明确,谷歌股价的攀升,也把一个问题推到了台前:

谷歌TPU是否真的具备与英伟达GPU正面抗衡的实力?

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第1张

尤其是TPUv7成为热议的核心,这款专为AI设计的芯片能否打破英伟达GPU多年的垄断格局?

众所周知,SemiAnalysis是科技界,特别是半导体与人工智能领域内一家有影响力的精品研究和咨询机构。

它以硬核、深入的数据洞察而闻名,不同于一般科技媒体的泛泛而谈,更像是一个服务华尔街投资者、芯片巨头和AI从业者的“行业智囊团”。

最近,他们发布的最新文章给出了一个明确判断:TPUv7首次向英伟达发起了实质性进攻。

这篇文章由12位作者联合撰写,足见其分量之重。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第2张

该文深入分析了谷歌TPUv7如何对英伟达的AI硬件主导地位发起真实挑战。关键转折点包括:

  • 谷歌打破了长期仅供内部使用的传统,开始向Anthropic等外部客户大规模销售TPU硬件和算力,后者已部署超过1GW的TPU集群。
  • 尽管单芯片理论参数上TPU未必超越英伟达,但谷歌凭借出色的系统级工程(如ICI互联和光路交换)实现了极高的实际模型算力利用率(MFU),且总体拥有成本(TCO)比英伟达GB200系统低约30%-40%。
  • 谷歌正通过支持PyTorch原生环境和vLLM等开源生态,积极弥补软件短板,试图从根本上动摇CUDA的护城河。

CUDA的护城河是否会被终结?

TPUv8和英伟达下一代AI产品Vera Rubin,谁更强大?

接下来的内容,将为你揭晓答案。

TPUv7:谷歌向王者发起挑战

英伟达看似不可撼动的堡垒,出现了细微裂痕。

目前,全球最顶尖的两个模型——Anthropic的Claude 4.5 Opus,以及谷歌的Gemini 3,它们的大部分训练和推理基础设施都运行在谷歌TPU和亚马逊Trainium上。

其中,Gemini 3及其所有早期版本,是完全基于TPU进行训练的

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第3张

不仅如此,谷歌正在向多家公司销售商用TPU硬件。

英伟达的王座迎来了新的竞争者。

早在2006年,谷歌就有了构建AI专用基础设施的设想。

但直到2013年,谷歌才为TPU芯片打下基础,并于2016年投入生产。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第4张

同一年,亚马逊也启动了Nitro项目,专注于开发优化通用CPU计算和存储的芯片。

如今,通过推进TPU商业化,谷歌已成为英伟达最新且最具威胁的挑战者。

Gemini 3发布后,市场反应热烈。

英伟达专门发布了一条官方推文,祝贺谷歌在AI领域的进展,同时不忘强调自身依然保持领先。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第5张

在推文中,英伟达强调自己仍在持续向谷歌供应硬件,并表示自己依然领先行业一代,是唯一能够运行所有AI模型、并适用于各种计算场景的平台。

同时,强调GPU比专用芯片(ASIC)在性能、通用性和可替代性上更具优势,这句话明显是对谷歌TPU、AWS Trainium等专用芯片的回应。

突然崛起的TPU

过去几个月,谷歌DeepMind的Gemini 3、谷歌云以及TPU综合体吸引了大量关注,也将谷歌母公司Alphabet的市值推高至接近4万亿美元。

TPU产量大幅提升,Anthropic、Meta、SSI、xAI、OAI等客户名单不断扩展,这推动了谷歌和TPU供应链的重新评估,无疑也对以英伟达GPU为核心的供应链构成压力。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第6张

除了面对TPU的压力,英伟达还面临通过“循环经济”制造AI泡沫的质疑,许多质疑者认为英伟达通过资助烧钱的AI初创公司,本质上是将资金从一个口袋转移到另一个口袋。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第7张

英伟达对此的回应

SemiAnalysis认为更合理的解释是:

英伟达旨在通过股权投资而非降价来维护其在顶级实验室的主导地位——降价会降低毛利率并引发投资者普遍担忧。

下文将通过解析OpenAI与Anthropic的合作模式,展示前沿实验室如何通过采购(或威胁采购)TPU来降低GPU的总体拥有成本(TCO)。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第8张

总拥有成本(TCO)模型、Anthropic和OpenAI

虽然OpenAI目前尚未部署TPU,但仅凭“可能转向TPU”这一潜在选择,就已在其英伟达集群成本上节省约30%。

简而言之,OpenAI并未实际将谷歌TPU芯片插入服务器运行任务,而是把“随时可能改用TPU”作为一个强大的谈判筹码,迫使英伟达为留住这个大客户,变相提供了大幅优惠。

谷歌TPU的大规模外部化

TPU堆栈长期以来一直与英伟达AI硬件竞争,但它主要服务于谷歌的内部工作负载。

即使在2018年向谷歌云平台客户提供TPU后,谷歌也未完全将其商业化。

如今,这种情况正在改变。

过去几个月,谷歌已动员整个堆栈的努力,通过谷歌云平台或作为商用供应商销售完整的TPU系统,开启了TPU大规模商业化的进程。

这一举措也使这家搜索巨头成为一个真正差异化的云服务提供商。

与此同时,谷歌的顶级客户Anthropic也在继续推动摆脱对英伟达的单一依赖,双方在采用TPU上达成共识。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第9张

与Anthropic的交易,标志着TPU规模化商业化的一个重要里程碑。

那么,Anthropic和其他客户为什么选择谷歌的TPU?

答案很简单。

TPUv7 Ironwood是一个强大系统内的优秀芯片,即使芯片参数可能落后于英伟达,谷歌的系统级工程也使TPU堆栈在性能和成本效率上与英伟达不相上下。

这种组合为Anthropic提供了引人注目的性能和TCO,从而赢得了大规模订单。

与英伟达通过GB200扩展其GPU生态类似,谷歌自2017年TPUv2以来,也一直在机架内和跨机架扩展TPU。

谷歌的ICI扩展网络,也是与英伟达NVLink匹敌的竞争对手。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第10张

目前,预训练前沿模型仍然是AI硬件中最困难、资源最密集的挑战。

自2024年5月GPT-4o以来,OpenAI的顶尖研究人员尚未完成广泛用于新前沿模型的成功全规模预训练运行,而TPU平台已通过了这一测试。

对谷歌而言,在最具挑战性的硬件问题之一中悄然建立性能领先,确实是一个令人印象深刻的成就。

微架构仍然很重要:Ironwood接近Blackwell

虽然谷歌一直在推动系统和网络设计的边界,但从一开始,谷歌在芯片设计理念上相对于英伟达更为保守。

历史上,TPU的峰值理论FLOPs明显较低,内存规格也低于相应的英伟达GPU。

这主要有三个原因。

首先,谷歌非常重视其基础设施的“RAS”(可靠性、可用性和可服务性)。

谷歌宁愿牺牲绝对性能来换取更高的硬件正常运行时间。

第二个原因,直到2023年,谷歌的主要AI工作负载是为其核心搜索和广告业务提供动力的推荐系统模型。

与大模型工作负载相比,RecSys工作负载的算术强度低得多,这意味着相对于传输的每一位数据,所需的FLOPs更少。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第11张

第三个原因,是TPU主要面向内部,在外部夸大这些规格的压力较小。

商用GPU供应商希望为其芯片营销尽可能好的性能规格,这激励他们将营销FLOPs提升到尽可能高的数字。

进入大模型时代后,谷歌TPU的设计理念发生了明显转变。

从最近两代为大模型设计的TPU:TPUv6 Trillium(Ghostlite)和TPUv7 Ironwood(Ghostfish)就可以看出这种变化。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第12张

TPUv6在FLOPs上已经非常接近H100/H200,但它比H100晚了2年。

TPUv7 Ironwood是下一次迭代,谷歌在FLOPs、内存和带宽方面几乎完全缩小了与相应英伟达旗舰GPU的差距,尽管全面上市比Blackwell晚了1年。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第13张

理论上的绝对性能是一回事,但更重要的是单位总拥有成本(TCO)的实际性能。

虽然谷歌通过Broadcom采购TPU并支付高额利润,但这明显低于英伟达不仅在GPU上,而且在整个系统(包括CPU、交换机、NIC、系统内存、布线和连接器)上赚取的利润。

从谷歌的角度看,每颗芯片在全规模部署下的TCO比英伟达GB200服务器低44%。

这足以弥补峰值FLOPs和峰值内存带宽约10%的不足。

为什么Anthropic下注TPU?

比较理论FLOPs只能说明部分问题。

更重要的是有效FLOPs,因为峰值数字在实际工作负载中几乎从未达到。

英伟达的优势源于CUDA护城河和开箱即用的广泛开源库,帮助工作负载高效运行,实现高FLOPs和内存带宽。

相比之下,TPU软件堆栈开箱即用的性能较弱,然而Anthropic拥有强大的工程资源和前谷歌编译器专家,他们既熟悉TPU堆栈,也深入理解自己的模型架构。

因此,他们弥补了这方面的不足。

他们可以投资自定义内核以驱动高TPU效率,这使得他们能够达到比采用其他商用GPU更高的MFU(模型FLOPs利用率)和更好的每PFLOP成本性能($/PFLOP)。

另一个巨大转变

传统上,TPU软件和硬件团队一直是面向内部的。

这具有优点,例如没有营销团队施加压力来夸大理论FLOPs。

只面向内部的另一个优势是TPU团队非常重视内部功能请求和优化内部工作负载。

缺点是他们不太关心外部客户或工作负载。

TPU生态系统中的外部开发者数量远低于CUDA生态系统。

这是TPU的主要弱点之一,就像所有非英伟达加速器一样。

谷歌此后调整了针对外部客户的软件战略,并已经对其TPU团队的KPI以及他们如何为AI/ML生态系统做出贡献做出了重大改变。

其中有两个主要变化:

  • 在PyTorchTPU“原生”支持上投入大量工程精力;
  • 在vLLM/SGLangTPU支持上投入大量工程精力。

通过查看谷歌对各种TPU软件仓库的贡献数量,可以清楚地看到外部化战略。

从3月开始,vLLM贡献显著增加。

从5月开始,创建了“tpu-inference”仓库,这是官方的vLLMTPU统一后端。

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第14张

谷歌在软件战略方面仍然处理不当的一个地方是,他们的XLA图编译器、网络库和TPU运行时仍然没有开源,也没有很好的文档记录。

这让从高级用户到普通用户的各种用户感到沮丧,因为他们无法调试代码出现的问题。

此外,用于多Pod训练的MegaScale代码库也不是开源的。

就像PyTorch或Linux开源迅速增加了采用率一样,为了加速用户的采用,谷歌或许应该将其开源,用户采用率的增加将超过他们公开和免费提供的所有软件IP。

后续

如果想要了解更深入的技术细节,比如谷歌独有的ICI光互连技术到底有哪些优势,可以阅读原文:

https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第15张

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第16张

谷歌TPUv7对决英伟达:AI算力霸权新战役 TPUv7  英伟达GPU AI芯片竞争 CUDA生态 第17张

参考资料

https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the

https://newsletter.semianalysis.com/p/mi300x-vs-h100-vs-h200-benchmark-part-1-training