当前位置:首页 > 科技资讯 > 正文

谷歌TPU的崛起:从内部救命项目到AI经济支柱的十年征程

谷歌TPU的崛起:从内部救命项目到AI经济支柱的十年征程 TPU 谷歌 AI芯片 推理成本 垂直整合 第1张

Alphabet兼谷歌首席执行官桑达尔·皮查伊

面对股价的持续下滑,英伟达不得不公开表态,强调自身技术在全行业中保持一代领先优势。这一系列事件起源于巴菲特在伯克希尔·哈撒韦公司的“谢幕之作”——首次建仓谷歌母公司Alphabet股票,随后市场传出更劲爆消息:英伟达大客户Meta正考虑于2027年在其数据中心部署谷歌TPU,并计划在2026年通过谷歌云租用TPU算力。

英伟达迅速发布紧急声明,坚称GPU在性能、通用性和可移植性方面“远优于”ASIC(专用集成电路),并重申自研TPU无法替代GPU的灵活性。谷歌发言人也回应称,公司继续与英伟达保持紧密合作,同时致力于支持TPU和英伟达GPU的双轨策略。

TPU,这个始于10年前为解决AI计算效率瓶颈的“救命项目”,如今已成长为谷歌的“经济支柱”。作为自研ASIC芯片的代表,TPU正展现出动摇英伟达根基的潜力。谷歌的逻辑并非在单卡性能上比拼,而是通过一套超大规模系统哲学,重新定义AI基础设施的未来。一切要从TPU诞生的那一刻说起。

01 TPU的前世今生

谷歌TPU的崛起:从内部救命项目到AI经济支柱的十年征程 TPU 谷歌 AI芯片 推理成本 垂直整合 第2张

TPU v1

谷歌在2015年启动TPU项目,这并非为了炫技,而是被现实所迫——如果不自研芯片,未来业务规模将难以支撑。随着深度学习在谷歌内部广泛应用,工程团队意识到一个严峻问题:搜索、广告等核心服务涉及海量用户请求,若全面采用深度学习模型,全球数据中心的功耗将飙升到无法承受的地步,即使采购更多GPU也无法满足需求,且成本激增。

当时GPU更适合训练大规模神经网络,但其能效并非为实时在线推理设计。谷歌内部预测显示,若所有核心业务上线深度模型,全球数据中心的电力成本可能增长十倍。高层因此决定自研ASIC加速器,目标不是打造“最强通用芯片”,而是开发“可大规模部署在数据中心、专用于矩阵运算的高能效芯片”。

最终,TPU v1于2016年投入使用,支持谷歌翻译和部分搜索功能,证明了ASIC方案的可行性。2017年Transformer论文发表后,谷歌立即意识到这一新架构的计算模式高度规则、矩阵密度极高、并行度惊人,简直是为TPU量身定制。于是,TPU不再孤立,而升级为谷歌AI基础设施的底座:通过软硬件全栈闭环,既训练最强模型,又以最低成本将AI渗透到每条产品线。

从v2、v3开始,谷歌逐步开放TPU给谷歌云客户,进入商业化阶段。虽然早期生态和兼容性仍逊于GPU,但谷歌凭借XLA编译器、高效Pod架构、液冷数据中心和软硬件深度共设计,蹚出一条差异化道路。2021年,TPU v4横空出世,首次将4096颗芯片组成超节点,通过自研环形拓扑网络实现近乎无损的跨芯片通信,让数千颗加速器像“巨型芯片”一样协同工作,直接推动谷歌进入超大规模AI时代,PaLM 540B模型正是在v4 Pod上训练完成。

谷歌用实践证明:只要集群规模足够大、互联效率足够高,模型性能就会随计算量近乎线性增长,而TPU的网络拓扑和调度系统正是关键硬件支撑。2023到2024年,TPU v5p成为转折点,首次大规模应用于谷歌广告系统、搜索核心排序、YouTube推荐等赚钱产品线,性能较v4翻倍,同时推出弹性节点架构,让企业客户可按需扩展到近9000颗芯片规模。Meta、Anthropic等头部模型公司开始认真评估并采购TPU v5p,标志着TPU从“内部黑科技”成长为“生态可选项”。

2024年发布的第六代TPU v6(代号Trillium)则彻底亮明态度:谷歌未来主战场不再是训练,而是推理。推理成本正成为全球AI公司最大单项支出,v6从架构到指令集全部围绕推理负载重新设计,FP8吞吐暴涨、片上SRAM容量翻倍、KV Cache访问模式深度优化、芯片间带宽大幅提升,能效比上一代提高67%。谷歌公开表示,这一代TPU的目标是成为“推理时代最省钱的商业引擎”。

从2015年为解决AI计算效率瓶颈被迫自研,到2025年即将把TPU部署到客户自有数据中心,谷歌用十年时间,把一个“救命项目”打造成可能撼动英伟达霸权的战略级武器。TPU从来不是为了比拼性能,而是为了让AI真正跑得起、赚得到钱——这正是谷歌与众不同的打法,也是最可怕的地方。

02 从“实验项目”到“数据中心命脉”

谷歌TPU的崛起:从内部救命项目到AI经济支柱的十年征程 TPU 谷歌 AI芯片 推理成本 垂直整合 第3张

TPU v7,代号Ironwood

2025年,谷歌推出的第七代TPU(TPU v7,代号Ironwood)成为全球AI基础设施领域最受关注的硬件产品。这一代在架构、规模、可靠性、网络与软件系统上进行了全面重构,宣告TPU从“追赶者时代”迈入“进攻时代”,并锁定推理为未来十年决战主战场。

Ironwood的特殊性在于它是TPU历史上第一款专用推理芯片。与此前以训练为主的v5p和以能效为主的v6e不同,Ironwood从设计之初就瞄准超大规模在线推理场景,并在多项关键指标上首次与英伟达Blackwell系列正面交锋。单芯片层面,Ironwood的FP8稠密算力达4.6 petaFLOPS,略高于Nvidia B200的4.5 petaFLOPS,跻身全球旗舰加速器第一梯队。内存配置为192GB HBM3e,带宽7.4 TB/s,与B200的192GB/8 TB/s接近。芯片间通信带宽9.6 Tbps,虽数字上不及Blackwell的14.4 Tbps,但谷歌走的是完全不同的系统级道路。

真正让Ironwood成为里程碑的,是其超大规模扩展能力。一个Ironwood Pod可集成9216颗芯片,构成超节点,FP8峰值性能超过42.5 exaFLOPS。谷歌在技术文档中指出,在特定FP8负载下,该Pod性能相当于最接近竞品系统的118倍——这不是单芯片差距,而是系统架构与拓扑设计的碾压。

支撑这一规模的核心,是谷歌十年磨一剑的2D/3D环面拓扑结合光路交换(OCS)网络。与英伟达依赖NVLink+高阶交换机构建的NVL72(仅72颗GPU)不同,谷歌从根本上放弃了传统交换机为中心的设计,转而用三维环面拓扑结构直接连接所有芯片,并通过OCS实现动态光路重构。OCS本质上是“光版人工电话交换台”,利用MEMS微镜在毫秒级完成光信号物理切换,几乎不引入额外延迟;当集群内出现芯片故障时,OCS能瞬间绕开坏点,保持整个计算域不中断。

得益于此,谷歌液冷Ironwood系统的年可用性达到99.999%,即全年停机时间不到六分钟——这一数字在超大规模AI集群中堪称恐怖,远超业界基于GPU的训练集群常见水平。谷歌已将TPU集群从“实验玩具”彻底升级为“数据中心命脉”。

在推理场景下,Ironwood展现出系统级降维打击能力。整个节点提供1.77 PB高带宽HBM,所有芯片均可近乎等距访问,这对KV缓存管理至关重要。推理时代最贵的不是算力,而是内存带宽和缓存命中率,Ironwood通过共享巨量高速内存和极低通信开销,大幅减少重复计算。内部实测显示,同等负载下Ironwood的推理成本较GPU旗舰系统低30%-40%,极端场景下更高。

软件层面同样火力全开。MaxText框架全面支持最新训练与推理技术,GKE拓扑感知调度可根据Pod内实时状态智能分配任务,推理网关支持前缀缓存感知路由。综合优化后,首Token延迟最高下降96%,整体推理成本再降30%。Ironwood不仅推动Gemini系列继续领跑,也直接撬动外部生态——Anthropic宣布未来Claude系列的训练与部署将使用多达一百万颗TPU。即使拥有AWS Trainium等备选方案的玩家,也无法忽视Ironwood在超大规模推理上的代际优势。

03 谷歌、英伟达、亚马逊,站在“三岔路口”

谷歌TPU的崛起:从内部救命项目到AI经济支柱的十年征程 TPU 谷歌 AI芯片 推理成本 垂直整合 第4张

CNBC分析指出,AI芯片领域三大玩家——谷歌、英伟达和亚马逊——都在大规模投入研发,但它们的追求目标、商业模式、生态构建方式和硬件哲学显著不同,这些差异深刻影响了芯片形态、性能侧重点、客户采用路径及市场地位。

英伟达的路线始终围绕GPU推进,而GPU的核心价值在于通用性。GPU具备海量并行计算单元,能够支持从深度学习到图形渲染再到科学计算等多种工作负载。更重要的是,CUDA生态几乎锁死了全行业的开发路径,一旦模型或框架为CUDA优化,就很难切换到其他芯片架构。英伟达通过软硬件深度捆绑实现了类似苹果生态的垄断能力,但GPU的缺陷也明显:首先,它并非为推理优化,设计初衷是高速并行计算,而非以最低成本执行重复推理指令;其次,GPU的灵活性意味着其硬件资源在推理场景中可能非最优配置,导致单位能耗效率不如ASIC;最后,英伟达定价权极高,云厂商往往需以远高于制造成本的价格购入GPU,形成“英伟达税”。

谷歌的路线与英伟达不同:谷歌并不追求硬件通用性,而是追求深度学习特别是Transformer负载的极致效率。TPU的核心是脉动阵列,专为矩阵乘法设计,使其在深度学习计算中特别高效。谷歌不希望TPU成为行业通用芯片,而是成为全球AI推理和训练最具效能的专用芯片,进而让整个AI系统做到性能领先、成本最低、部署最广。谷歌的核心优势在于全栈整合能力——他们不仅控制芯片,还控制模型、框架、编译器、分布式训练系统与数据中心基础设施,这使谷歌能实现许多GPU无法做到的系统级优化,例如数据中心网络拓扑完全为TPU超节点服务,软件调度系统能根据模型特性自动调整硬件资源使用方式。这种“系统级一体化”是英伟达无法做到的,因为英伟达只能控制GPU,而不能控制客户的数据中心。

亚马逊则走了第三条路线,其芯片战略出发点是降低AWS的基础设施成本,同时减少对外部供应商尤其是英伟达的依赖,因此开发了Trainium和Inferentia。作为云厂商,AWS关注规模效应与经济性,而非像谷歌那样构建统一AI算力体系。Trainium设计更灵活,在不少情况下接近GPU的适配能力,但性能针对训练和推理分别优化;Inferentia则聚焦推理,适合高吞吐部署场景。亚马逊通过芯片降低内部成本并将节省部分反馈给客户,从而提升AWS竞争力。

总体而言,英伟达的路线是通用、生态驱动、软件锁定;谷歌的路线是专用、垂直整合、系统统一;亚马逊的路线是成本优化、云驱动、兼容商业需求。三者的路线差异导致了AI芯片市场中截然不同的产品形式、商业策略与竞争格局。

04 利用TPU,告别昂贵的“CUDA税”

谷歌TPU的崛起:从内部救命项目到AI经济支柱的十年征程 TPU 谷歌 AI芯片 推理成本 垂直整合 第5张

谷歌之所以在推理时代获得显著优势,关键不仅在于TPU的硬件性能,更在于其全栈垂直整合策略。这种策略让谷歌避免了昂贵的“CUDA税”,并在成本结构上相对于OpenAI和其他依赖GPU的企业形成巨大优势。

所谓CUDA税,是指GPU芯片从生产到销售过程中所叠加的高额利润。英伟达的GPU成本大约仅几千美元,但卖给云厂商时价格往往动辄数万美元,毛利率高达八成以上。全球所有训练大模型的科技公司几乎都要支付这项成本,并且无法摆脱。OpenAI依赖英伟达GPU进行训练和推理,由于GPT系列模型参数规模巨大、推理量庞大,其总体算力开支远超大多数企业的总营收。英伟达的定价模式使这些公司无论怎么优化模型,都难以实现规模化商业利润。

谷歌的策略完全不同:采用自研TPU进行训练和推理,整个供应链由谷歌控制,从芯片设计到制造、从网络方案到软件栈再到数据中心布局,全部由内部优化。由于不需要支付英伟达税,谷歌的算力成本结构天生比OpenAI更具优势。谷歌不仅在内部获得低成本,还将这种优势传递给谷歌云的客户——通过TPU服务,谷歌可以为客户提供更低价格的推理能力,从而吸引大量模型公司和企业迁移到谷歌平台。根据科技网站venturebeat.com的报道,谷歌在算力成本上的结构性优势远优于OpenAI,这意味着谷歌提供同等推理服务时,其底层成本可能仅为对手的两成。如此大的成本差异在推理时代具有决定性意义。

当企业的推理成本占到支出大部分时,迁移到成本最低的平台就成为必然选择。例如,一个企业每年可能在推理上消耗数千万美元甚至上亿美元,如果迁移到TPU可以节省三到五成成本,那么迁移几乎是一种不可回避的商业决策。谷歌还推出了TPU@Premises计划,将TPU直接部署在企业数据中心,使客户可以在本地以最低延迟使用推理能力,这再次强化了谷歌的成本优势,进一步扩大TPU的商业辐射范围。

在OpenAI的商业模式中,其最重要的成本来自算力;而在谷歌的商业模式中,算力成本是自研产品体系的一部分,可以通过谷歌云收回投资。谷歌在硬件、软件、网络和云基础设施上的深度融合,使其具备真正意义上的垂直整合能力。这种整合不仅节省成本,更在推动整个生态的重新配置。随着越来越多企业意识到推理成本的重要性,谷歌的成本优势将不断被放大,TPU的市场份额也将在推理时代获得更快增长。TPU的垂直整合策略最终不仅是谷歌的竞争策略,更是对整个行业竞争秩序的重塑力量。

05 谷歌的“经济支柱”

回顾TPU的发展史,可以看到一个典型的“追赶到领先”的演变轨迹。早期TPU在生态成熟度、兼容性和训练性能方面落后于GPU,外界普遍认为谷歌在AI大模型时代被OpenAI超越。然而,这种外部印象忽略了谷歌在基础设施层面的深度积累,也忽略了其全栈系统上的独特优势。

随着Gemini系列模型逐代升级,谷歌逐步证明自己仍然是全球少数可以实现训练稳定性、推理成本控制和全栈性能优化的公司,TPU在其中扮演了关键角色。Gemini 2.0多模态模型的训练和推理都在TPU上完成,而TPU的高效能使谷歌能够以相对低成本训练大规模模型,使模型迭代周期更短、成本更低。

随着公司进入推理时代,TPU的作用从支持谷歌内部模型转向支持全球企业客户。谷歌云的AI收入随之大幅增加,云部门的财报显示全年化收入达到440亿美元,并成为谷歌整体业绩增长的重要驱动力。谷歌在云市场的竞争地位长期落后于AWS和Azure,但在AI时代出现了新的赛道,在AI基础设施方面实现领先。这一领先并非偶然,而是TPU多年积累后的自然结果。

在企业AI采用加速的大背景下,越来越多公司需要推理成本低、稳定性高、性能强的模型部署方案。GPU虽然性能强,但成本和供货都存在限制,而TPU提供了更具经济性和稳定性的替代方案,尤其在大规模在线推理场景中优势明显。更重要的是,谷歌并非只以芯片作为卖点,而是以整体解决方案吸引企业——例如提供从模型训练、模型监控、向量数据库、推理服务到数据安全的一体化体系,TPU在其中作为最底层基础设施发挥作用。谷歌将自己塑造为企业采用AI的完整平台,使其与AWS和Azure在差异化竞争中获得新的优势。

未来几年,AI行业的竞争将从模型维度转向成本维度,从训练能力转向推理规模,从生态构建转向基础设施整合。谷歌凭借TPU、全球数据中心布局、代际升级节奏和全栈能力,有望在这一新周期中构建比过去十年更牢固的竞争壁垒。谷歌从追赶者转向领先者的过程并非一蹴而就,而是在十年时间里持续投入基础设施、坚持自研、不断调整模型路线的结果。TPU是谷歌在AI时代构建的最长久、最深层、最具战略意义的资产,而这一资产正在成为推动谷歌市值增长、云业务崛起和AI商业模式重塑的主力引擎。

本文来自“腾讯科技”,作者:无忌,编辑:苏扬,36氪经授权发布