当前位置:首页 > 科技资讯 > 正文

谷歌TPU十年进化:从内部自救到挑战英伟达的AI芯片霸主

谷歌TPU十年进化:从内部自救到挑战英伟达的AI芯片霸主 TPU  谷歌AI芯片 英伟达 推理时代 第1张

Alphabet兼谷歌首席执行官桑达尔·皮查伊

面对股价持续下滑的压力,英伟达终于打破沉默,公开宣称其技术领先全行业整整一代。这一表态源于巴菲特旗下的伯克希尔·哈撒韦公司首次建仓谷歌母公司Alphabet股票,随后市场传出重磅消息:英伟达的大客户Meta正考虑在2027年将谷歌自研TPU引入其数据中心,并计划于2026年通过谷歌云租用TPU算力。英伟达迅速发布紧急声明,强调GPU在性能、通用性和可移植性方面远优于ASIC专用芯片,并指出自研TPU无法替代GPU的灵活性。谷歌发言人则回应称,双方合作关系依旧稳固,公司将持续并行支持TPU和英伟达GPU的发展。

TPU,这个十年前为解决AI计算效率瓶颈而诞生的“救命项目”,如今已悄然成长为谷歌的“经济支柱”。作为自研ASIC芯片的代表,TPU已具备撼动英伟达霸主地位的潜力。但谷歌的制胜逻辑并非与英伟达比拼单卡性能,而是通过一套截然不同的超大规模系统哲学,重新定义AI基础设施的未来走向。这一切,都要从十年前TPU诞生的那一刻说起。

01 TPU的前世今生

谷歌TPU十年进化:从内部自救到挑战英伟达的AI芯片霸主 TPU  谷歌AI芯片 英伟达 推理时代 第2张

TPU v1

谷歌于2015年启动TPU项目,初衷并非炫技或彰显技术实力,而是被现实逼入绝境——若不自主研发,未来业务规模将难以为继。随着深度学习在谷歌内部广泛应用,工程团队敏锐意识到一个关键瓶颈正在逼近:包括搜索、广告在内的核心服务每日承载海量用户请求,若全面转向深度学习模型,全球数据中心的功耗将飙升至难以承受的水平,即便采购再多GPU也无法满足需求,更遑论成本激增。彼时的GPU虽擅长训练大规模神经网络,但其能效并非针对实时在线推理设计。谷歌内部甚至预测,如果所有核心业务都上线深度模型,全球数据中心电力成本可能暴增十倍。高层因此意识到,继续依赖CPU和GPU的现有路线已不可持续。

于是,谷歌决定自研ASIC加速器,目标并非打造“最强通用芯片”,而是设计一款能够大规模部署于数据中心、专为特定矩阵运算而生的高能效芯片。最终,TPU v1在2016年正式投入使用,支撑谷歌翻译及部分搜索功能,初步验证了ASIC方案的可行性。

2017年Transformer论文发表后,谷歌几乎在同一时间洞察到:这一新架构的计算模式高度规则、矩阵密度极高、并行度惊人,简直是为TPU量身定制。与其等待外部硬件厂商缓慢跟进,不如自行将软件框架、编译器、芯片架构、网络拓扑、散热系统全部整合,形成全栈闭环。自此,TPU不再孤立存在,而是升级为谷歌AI基础设施的底座——既要训练出全球顶尖的模型,也要让AI以最低成本渗透到每一条产品线。

从v2、v3开始,谷歌逐步向云客户开放TPU,正式迈入商业化阶段。尽管早期生态和兼容性仍逊于GPU,但谷歌凭借XLA编译器、高效Pod架构、液冷数据中心以及软硬件的深度协同设计,硬生生开辟出一条差异化道路。2021年,TPU v4横空出世,首次将4096颗芯片组成一个超节点,依靠自研的环形拓扑网络(2D/3D torus)实现近乎无损的跨芯片通信。这套系统让数千颗加速器如同一颗“巨型芯片”般协同工作,直接将谷歌带入超大规模AI时代,PaLM 540B模型正是在v4 Pod上完成训练的。谷歌用实际行动证明:只要集群规模足够大、互联效率足够高,模型性能就能随计算量近乎线性增长,而TPU的网络拓扑和调度系统正是实现这一规律的关键硬件支撑。

2023到2024年,TPU v5p成为转折点。它首次大规模应用于谷歌广告系统、搜索核心排序、YouTube推荐、地图实时预测等盈利产品线,性能较v4翻倍,同时推出弹性节点架构,允许企业客户按需扩展至近9000颗芯片的规模。Meta、Anthropic等头部模型公司开始认真评估并采购TPU v5p,标志着TPU终于从“内部黑科技”成长为“生态可选项”。

2024年发布的第六代TPU v6(代号Trillium)则彻底亮明态度:谷歌未来的主战场已从训练转向推理。推理成本正成为全球AI公司最大的单项支出,v6从架构到指令集全部围绕推理负载重新设计,FP8吞吐量暴涨、片上SRAM容量翻倍、KV Cache访问模式深度优化、芯片间带宽大幅提升,能效比上一代提升67%。谷歌公开表示,这一代TPU的目标是成为“推理时代最省钱的商业引擎”。

从2015年为解决AI计算效率瓶颈被迫自研,到2025年即将将TPU部署到客户自有数据中心,谷歌用十年时间将一个“不得不做的救命项目”逐步打造成足以撼动英伟达霸权的战略级武器。TPU的诞生从来不是为了与谁比拼性能,而是为了让AI真正跑得起来、赚得到钱。这正是谷歌与众不同的打法,也是它最令人敬畏之处。

02 从“实验项目”到“数据中心命脉”

谷歌TPU十年进化:从内部自救到挑战英伟达的AI芯片霸主 TPU  谷歌AI芯片 英伟达 推理时代 第3张

TPU v7,代号Ironwood

2025年,谷歌推出的第七代TPU(TPU v7,代号Ironwood)成为全球AI基础设施领域备受瞩目的硬件产品。这一代芯片在架构、规模、可靠性、网络与软件系统上实现了全面重构。Ironwood的诞生正式宣告TPU从“追赶者时代”迈入“进攻时代”,也标志着谷歌将推理时代视为未来十年的决战主战场。

Ironwood之所以特殊,首先在于它是TPU历史上第一款专用推理芯片。与此前以训练为主的v5p和以能效为主的v6e不同,Ironwood从设计之初就锁定超大规模在线推理这一终极场景,并在多项关键指标上首次与英伟达Blackwell系列正面交锋。单芯片层面,Ironwood的FP8稠密算力达到4.6 petaFLOPS,略高于Nvidia B200的4.5 petaFLOPS,已跻身全球旗舰加速器第一梯队。内存配置为192GB HBM3e,带宽7.4 TB/s,与B200的192GB/8 TB/s仅一步之遥。芯片间通信带宽9.6 Tbps,虽数值不及Blackwell的14.4 Tbps,但谷歌走的是完全不同的系统级道路,单纯数值对比已失去意义。

真正让Ironwood成为里程碑的,是其超大规模扩展能力。一个Ironwood Pod可集成9216颗芯片,构成一个超节点,FP8峰值性能超过42.5 exaFLOPS。谷歌在技术文档中指出,在特定FP8负载下,该Pod性能相当于最接近竞品系统的118倍。这并非单芯片差距,而是系统架构与拓扑设计的碾压。支撑这一规模的核心,是谷歌十年磨一剑的2D/3D环面拓扑结合光路交换(OCS)网络。与英伟达依赖NVLink+高阶交换机构建的NVL72(仅72颗GPU)不同,谷歌从根本上放弃了传统交换机为中心的设计,转而用三维环面拓扑结构直接连接所有芯片,并通过OCS实现动态光路重构。OCS本质上是一套“光版人工电话交换台”,利用MEMS微镜在毫秒级完成光信号物理切换,几乎不引入额外延迟,更重要的是,当集群内出现芯片故障时,OCS能瞬间绕开坏点,保持整个计算域不中断。得益于此,谷歌液冷Ironwood系统的年可用性达到99.999%,即全年停机时间不到六分钟。这一数字在超大规模AI集群中堪称惊人,远超业界基于GPU的训练集群常见水平。谷歌已将TPU集群从“实验玩具”彻底升级为“数据中心命脉”。

在推理场景下,Ironwood展现出系统级的降维打击能力。整个节点提供1.77 PB高带宽HBM,所有芯片均可近乎等距访问,这对KV缓存管理至关重要。推理时代最贵的不是算力,而是内存带宽和缓存命中率,Ironwood通过共享巨量高速内存和极低通信开销,大幅减少重复计算。内部实测显示,同等负载下Ironwood的推理成本较GPU旗舰系统低30%-40%,极端场景下更高。软件层面同样火力全开:MaxText框架全面支持最新训练与推理技术,GKE拓扑感知调度可根据Pod内实时状态智能分配任务,推理网关支持前缀缓存感知路由。综合优化后,首Token延迟最高下降96%,整体推理成本再降30%。

Ironwood不仅推动Gemini系列继续领跑,也直接撬动外部生态。Anthropic宣布未来Claude系列的训练与部署将使用多达一百万颗TPU。即使拥有AWS Trainium等备选方案的玩家,也无法忽视Ironwood在超大规模推理上的代际优势。

03 谷歌、英伟达、亚马逊,站在“三岔路口”

谷歌TPU十年进化:从内部自救到挑战英伟达的AI芯片霸主 TPU  谷歌AI芯片 英伟达 推理时代 第4张

CNBC在对AI芯片领域三大玩家——谷歌、英伟达和亚马逊——进行分析后指出,三者都在大规模投入研发,但它们追求的目标、商业模式、生态构建方式、硬件哲学均有显著不同。这些差异深刻影响了芯片的形态、性能侧重点、客户采用路径以及市场地位。

英伟达的路线始终围绕GPU推进,其核心价值在于通用性。GPU具备海量并行计算单元,能够支持从深度学习到图形渲染再到科学计算等多种工作负载。更重要的是CUDA生态几乎锁死了全行业的开发路径,一旦模型或框架为CUDA优化,就很难切换到其他芯片架构。英伟达通过软硬件深度捆绑实现了类似苹果生态在消费品市场的垄断能力,但GPU的缺陷也十分明显。首先,GPU并非为推理优化,它的设计初衷是高速并行计算,而不是以最低成本执行重复推理指令。其次,GPU的灵活性意味着其硬件资源在实际推理场景中可能并非最优配置,导致单位能耗的效率不如ASIC。最后,英伟达的定价权极高,云厂商往往需要以远高于制造成本的价格购入GPU,形成今天广为人知的“英伟达税”。

谷歌的路线与英伟达截然不同。谷歌并不追求硬件通用性,而是追求深度学习特别是Transformer负载的极致效率。TPU的核心是脉动阵列,这是一种专门为矩阵乘法设计的架构,使其在深度学习计算中特别高效。谷歌不是希望TPU成为行业通用芯片,而是成为全球AI推理和训练最具效能的专用芯片,进而让谷歌整个AI系统做到性能领先、成本最低、部署最广。谷歌的核心优势在于全栈整合能力。他们不仅控制芯片,还控制模型、框架、编译器、分布式训练系统与数据中心基础设施。这让谷歌可以做出许多GPU无法实现的系统级优化。例如数据中心网络拓扑完全为TPU超节点服务,软件层面的调度系统能根据模型特性自动调整硬件资源的使用方式。这种“系统级一体化”是英伟达无法做到的,因为英伟达只能控制GPU,而不能控制客户的数据中心。

亚马逊则走了第三条路线,其芯片战略出发点是降低AWS的基础设施成本,同时减少对外部供应商尤其是英伟达的依赖,因此他们开发了Trainium和Inferentia。作为云厂商,AWS关注的是规模效应与经济性,而非像谷歌那样构建一个统一的AI算力体系。Trainium的设计更灵活,在不少情况下接近GPU的适配能力,但性能针对训练和推理分别做了优化。Inferentia则聚焦推理,适合高吞吐部署场景。亚马逊通过芯片降低内部成本并将节省部分反馈给客户,从而提升AWS的竞争力。

总体而言,英伟达的路线是通用、生态驱动、软件锁定;谷歌的路线是专用、垂直整合、系统统一;亚马逊的路线是成本优化、云驱动、兼容商业需求。三者的路线差异导致了AI芯片市场中出现了截然不同的产品形式、商业策略与竞争格局。

04 利用TPU,告别昂贵的“CUDA税”

谷歌TPU十年进化:从内部自救到挑战英伟达的AI芯片霸主 TPU  谷歌AI芯片 英伟达 推理时代 第5张

谷歌之所以能够在推理时代获得显著优势,关键并不仅仅在于TPU的硬件性能,更在于其全栈垂直整合策略。这种策略让谷歌避免了昂贵的“CUDA税”,并在成本结构上相对于OpenAI和其他依赖GPU的企业形成了巨大优势。所谓CUDA税,是指GPU芯片从生产到销售过程中所叠加的高额利润。英伟达的GPU成本大约仅几千美元,但卖给云厂商时价格往往动辄数万美元不等,毛利率高达八成以上。全球所有训练大模型的科技公司几乎都要支付这项成本,并且无法摆脱。OpenAI依赖英伟达GPU进行训练和推理,且由于GPT系列模型参数规模巨大、推理量庞大,其总体算力开支远超大多数企业的总营收。英伟达的定价模式使这些公司无论怎么优化模型,都难以实现规模化商业利润。

谷歌的策略完全不同。谷歌采用自研TPU进行训练和推理,整个供应链由谷歌控制,从芯片设计到制造、从网络方案到软件栈再到数据中心布局,全部由谷歌内部优化。由于不需要支付英伟达税,谷歌的算力成本结构天生比OpenAI更具优势。谷歌不仅在内部获得低成本,还将这种成本优势传递给谷歌云的客户。通过TPU服务,谷歌可以为客户提供更低价格的推理能力,从而吸引大量模型公司和企业迁移到谷歌平台。根据科技网站venturebeat.com的报道,谷歌在算力成本上的结构性优势远远优于OpenAI。这意味着,谷歌提供同等推理服务时,其底层成本可能仅为对手的两成。如此大的成本差异在推理时代具有决定性意义。当企业的推理成本占到其支出的大部分时,迁移到成本最低的平台就成为必然选择。例如,一个企业每年可能在推理上消耗数千万美元甚至上亿美元,如果迁移到TPU可以节省三到五成成本,那么迁移几乎是一种不可回避的商业决策。

谷歌还推出了TPU@Premises计划,将TPU直接部署在企业数据中心,使客户可以在本地以最低延迟使用推理能力。这再次强化了谷歌的成本优势,进一步扩大TPU的商业辐射范围。在OpenAI的商业模式中,其最重要的成本来自算力,而在谷歌的商业模式中,其算力成本是自研产品体系的一部分,可以通过谷歌云收回投资。谷歌在硬件、软件、网络和云基础设施上的深度融合,使其具备真正意义上的垂直整合能力。这种整合不是简单节省成本,而是在推动整个生态的重新配置。随着越来越多企业意识到推理成本的重要性,谷歌的成本优势将不断被放大,TPU的市场份额也将在推理时代获得更快增长。TPU的垂直整合策略最终不仅是谷歌的竞争策略,更是对整个行业竞争秩序的重塑力量。

05 谷歌的“经济支柱”

回顾TPU的发展史,可以看到一个典型的“追赶到领先”的演变轨迹。早期TPU在生态成熟度、兼容性和训练性能方面落后于GPU,外界普遍认为谷歌在AI大模型时代被OpenAI超越。然而这种外部印象忽略了谷歌在基础设施层面的深度积累,也忽略了谷歌在全栈系统上的独特优势。随着Gemini系列模型逐代升级,谷歌逐步证明自己仍然是全球少数可以实现训练稳定性、推理成本控制和全栈性能优化的公司,TPU在其中扮演了关键角色。Gemini 2.0多模态模型的训练和推理都在TPU上完成,而TPU的高效能使谷歌能够以相对低成本训练大规模模型,使模型迭代周期更短、成本更低。随着公司进入推理时代,TPU的作用从支持谷歌内部模型转向支持全球企业客户。谷歌云的AI收入随之大幅增加,云部门的财报显示全年化收入达到440亿美元,并成为谷歌整体业绩增长的重要驱动力。

谷歌在云市场的竞争地位长期落后于AWS和Azure,但在AI时代出现了新的赛道,在AI基础设施方面实现领先。这一领先并非偶然,而是TPU多年积累后的自然结果。在企业AI采用加速的大背景下,越来越多公司需要推理成本低、稳定性高、性能强的模型部署方案。GPU虽然性能强,但成本和供货都存在限制,而TPU提供了更具经济性和稳定性的替代方案。尤其在大规模在线推理场景中,TPU的优势尤为明显。更重要的是,谷歌并非只以芯片作为卖点,而是以整体解决方案吸引企业。例如谷歌提供从模型训练、模型监控、向量数据库、推理服务到数据安全的一体化体系,TPU在其中作为最底层基础设施发挥作用。谷歌将自己塑造为企业采用AI的完整平台,使其与AWS和Azure在差异化竞争中获得新的优势。

未来几年,AI行业的竞争将从模型维度转向成本维度,从训练能力转向推理规模,从生态构建转向基础设施整合。谷歌凭借TPU、全球数据中心布局、代际升级节奏和全栈能力,有望在这一新周期中构建比过去十年更牢固的竞争壁垒。谷歌从追赶者转向领先者的过程并非一蹴而就,而是在十年时间里持续投入基础设施、坚持自研、不断调整模型路线的结果。TPU是谷歌在AI时代构建的最长久、最深层、最具战略意义的资产,而这一资产正在成为推动谷歌市值增长、云业务崛起和AI商业模式重塑的主力引擎。

本文来自“腾讯科技”,作者:无忌,编辑:苏扬,36氪经授权发布