当前位置:首页 > 科技资讯 > 正文

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战

在之前的深度分析中,我们指出谷歌是少数有望挑战英伟达5万亿美元市值的科技巨头,此后谷歌利好消息频传,包括巴菲特增持股份,以及推出了行业顶尖的AI模型。

正当外界普遍认为“英伟达主导地位难以动摇”时,谷歌连续达成两项关键合作,再次将行业焦点引向其算力布局:

正与Meta商讨价值数十亿美元的TPU采购协议,Meta考虑从2027年起,将部分推理算力从英伟达平台迁移至谷歌TPU。

与Anthropic确立“最高百万颗TPU”的扩容计划,规模达数百亿美元级别;

值得注意的是,Meta是英伟达的核心客户之一。谷歌云内部高管公开表示:

“若TPU采用率持续提升,我们有望从英伟达手中夺取约10%的年收入份额。”

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第1张

换言之,谷歌正从“模型与云服务”两端协同发力,直接冲击英伟达的芯片帝国。一条全新的“谷歌链”迅速成型,硅谷的AI供应链格局可能面临重塑。

那么,核心问题浮现:

当数百亿美元算力订单转向谷歌,是否意味着英伟达近两年的芯片暴利时代迎来转折点?

谷歌TPU单卡性能虽不及英伟达,为何却能凭借“系统级性价比”吸引Meta、Anthropic等巨头?

一旦资金从“英伟达链”分流,正在形成的万亿级“谷歌链”中,除了谷歌自身,哪些公司有望成为资本追捧的受益者?

面对“英伟达链与谷歌链”的竞争,投资者应如何配置资产,以捕捉这波万亿产业扩张的红利?

谷歌TPU为何成为大模型公司的新选择?

要理解谷歌为何能撬动算力市场,需明确一个大前提:英伟达在“单芯片性能”和“整柜峰值算力”上的优势始终未被撼动。

Blackwell架构产品,如B200/GB200,在训练、推理和能效上表现卓越,一个GB200 NVL72整柜可实现1.4 EFLOPS算力——这是专为“万亿参数模型”设计的超级工具。

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第2张

因此,在“单卡性能”和“极限峰值”领域,英伟达仍是行业标杆,这是公认事实。

但谷歌并未在英伟达的优势领域硬碰硬,而是选择了另一条路径:不追求最强单卡,而是聚焦规模、效率、成本和稳定性。谷歌旨在打造一套系统级算力平台。

从TPU的演进可见一斑。

第六代TPU Trillium旨在大幅降低训练成本。谷歌云测试显示,在训练Llama2、Llama3等主流大模型时,其“性能/成本比”比上一代提升最高约2.1倍。这意味着同等预算可训练更大规模的模型。此外,Trillium的分布式扩展效率极高,成千上万颗芯片组成的集群仍能接近满载运行。

第七代TPU Ironwood则不再简单“堆叠芯片”,而是将数千颗TPU整合为“一台巨型超级计算机”。一个Pod最多容纳9,216颗TPU,并配备1.77PB共享HBM内存,这不像传统服务器集群,更像一台高度集成的计算机系统。

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第3张

结合谷歌自研的光交换网络,芯片间通信延迟极低,超大模型在Ironwood上运行时,无需在数千张卡间频繁传输数据——如同在单台巨型计算机中运行般流畅,有效规避了“内存墙”问题,推理速度显著提升。

若暂忽略复杂技术参数,回归企业最关注的指标——总拥有成本(TCO),谷歌与英伟达的差异便一目了然。

根据谷歌测试,在许多主流大模型任务中,TPU v5e/v6在合适负载下,性能/成本比相较传统高端GPU方案可实现2–4倍提升。换言之,同等投入可获得数倍产出,或以更低成本完成相同训练。在实际业务中,许多公司的整体算力成本可降低30%–40%,部分场景甚至更低。

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第4张

通过谷歌云公开定价对比更为直观:同一区域,一颗H100的Spot价格为2.25美元/小时,而一颗TPU v5e仅需0.24美元/小时。单芯片计费价格相差9倍。

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第5张 谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第6张

第三方评测也得出类似结论:在GPT级别的大模型训练中,TPU v5e在保持相近吞吐量的前提下,总成本可降至高端GPU方案的“零头”水平。

正因谷歌TPU具备成本低、可扩展、集群效率高等优势,大模型公司开始重新规划算力结构,这不仅是“节省开支”,更是基于TCO(总成本)、规模与风险的商业决策。

以Anthropic为例,其将未来核心算力交由谷歌,原因很简单:TPU能以更低预算支持更大模型规模。同时,将数据中心运维全权委托给谷歌云,意味着无需像OpenAI或xAI那样投入数百亿美元自建基础设施。这使创业公司能更专注于模型研发,是更务实的选择。

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第7张

Meta的动机则不同,它更像在进行“风险对冲”。作为AI算力需求巨头,仅依赖英伟达难以满足长期规划。将部分推理任务迁移至TPU,既能增强供应链韧性,也能优化长期运营成本——尤其是在推理和微调等持续耗能场景,迁移至更经济平台可带来显著现金流节省。

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第8张

综合所有信息,逻辑清晰:谷歌竞争的是系统效率、总成本和长期稳定性。对大模型公司而言,这比单卡性能更重要,因为企业最终考量的是:成本节约、扩展稳定性及供应链安全性。

关键的是,据美股投资网消息,谷歌已将TPU引入高频交易公司、银行和国防部门等安全要求极高的场景。能在这些领域本地部署并通过严格安全审查,表明TPU已跨越GPU长期难以突破的门槛:数据隔离、超低延迟、可审计性和主权安全。

这是一个质变。一旦金融和政府系统采用TPU,影响的不仅是采购订单,更是长期的算力主权布局。

这首次打开了GPU垄断的高价值市场,行业格局出现结构性松动,一条全新的“谷歌链”正快速成形。

谷歌AI芯片利好哪些公司

这不是简单的“更换硬件供应商”,而是需求端巨头推动的算力体系重组,对投资者极具价值。那么,“谷歌链”由哪些核心环节构成?哪些公司率先受益?

首先是AVGO。许多人可能不知,谷歌TPU并非完全自主研发,其核心通信和网络部分主要由AVGO提供。双方合作近十年,关系紧密。

AVGO在谷歌体系中的关键能力包括高速SerDes、交换ASIC以及支持谷歌Jupiter光网络的光交换芯片。这些组件如同TPU集群的“血管”“神经系统”和“主干道”。没有它们,TPU无法构建超大规模集群,谷歌光网络也难以实现现有体量。因此,只要谷歌继续发展专用加速器,AVGO就是不可或缺的底层核心。

AVGO能否在关键领域与英伟达抗衡?

答案是肯定的。英伟达的优势在于GPU、CUDA和NVLink,尤其是NVLink自研高速互联,从2016年迭代至4.0,速度约为PCIe Gen5的三倍,是其大集群性能的核心。

但AVGO起源于网络通信,在交换芯片、光通信和数据中心互联等领域积累深厚,完全具备与NVLink竞争的实力。简言之,一方是“英伟达的私有高速通道”,另一方是“AVGO的行业顶级网络架构”。在云和数据中心等超大规模场景中,AVGO地位稳固。

这也是我们在2025年初就推荐AVGO的原因。

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第9张

ASIC领域的代表企业博通和Marvell(两家占据ASIC市场超60%份额)已领先市场。前者作为谷歌TPU制造商,合作近十年;后者自推出该业务25年来,已设计超2000款ASIC,曾受亚马逊、谷歌、微软委托开发定制AI芯片。

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第10张

制造端由台积电TSM、Amkor和日月光ASE组成铁三角。TPU v7对3nm/2nm制程、HBM堆叠和高密度Chiplet封装的依赖加深,TSMC决定算力上限,AMKR和ASX确保带宽落地。随着机构预测2026年谷歌TPU将成为全球主要自研ASIC,这三家公司是算力迭代的硬件基础。

芯片出厂后,将TPU部署为“可用”系统的关键公司包括Jabil、Flex和我们2025年必推的Celestica。它们负责TPU模组、服务器机架、电源系统和整柜装配,是谷歌数据中心扩容最直接的环节。随着TPU v7功耗和密度上升,机架结构、布线和散热需全面 redesign,这三家ODM的单柜价值量和出货节奏随之提升,成为追踪谷歌资本支出的风向标。

谷歌TPU崛起:AI算力市场的新变革与英伟达的挑战 谷歌TPU  英伟达竞争 AI算力供应链 算力成本优化 第11张

系统规模化运行依赖高速互联能力。谷歌Jupiter光交换体系需要更高带宽光模块,这是Lumentum、Coherent以及AVGO光通信业务的专长。数据中心互联从400G升级至800G、1.6T,这些厂商将率先感受到需求增长。没有高速光通信,TPU集群的横向扩展将受限。

OCS(光电路交换机)上游首次出现具备投资价值的美股公司。

谷歌采用的Palomar OCS依赖2D MEMS微镜阵列,这类高精度器件单价高、工艺壁垒强,直接受益者包括SiTime与Luna Innovations。

同时,OCS推动的高密度光路带动了IPG Photonics、Coherent等精密光学厂商在准直器、透镜阵列和硅光波导上的新增需求。这一环节在传统数据中心中不存在,是OCS开辟的全新增量市场。

随着集群规模扩大,基础设施压力增加。高功耗带来的散热、电力和液冷需求决定了数据中心的扩展能力。因此,VRT成为谷歌链中最“通用”的公司。无论部署GPU还是TPU,只要算力密度提升,VRT的电源管理和液冷系统就是不可或缺的底层支持。

最后,谷歌的AI战略不限于云端。为使Gemini Nano在全球终端设备本地运行,谷歌需依赖高通提供的端侧算力平台。Snapdragon的NPU、DSP和本地推理能力,是安卓生态运行“端侧大模型”的关键。因此,谷歌AI要触达普通用户,高通是承上启下的核心环节。

当云端由TPU支撑、端侧由高通承载,谷歌的AI版图才真正完整——这意味着谷歌正从“云—端”两侧同步推进,构建一套闭环、可规模化的算力体系。

这套“云端+端侧”双引擎驱动,使行业发生深层变革:AI算力版图不再依赖单一供应商。

AI算力不再只有一条命脉!

从更高产业视角看,谷歌TPU的崛起,并非“谁替代谁”的零和游戏,而是全球AI算力结构的“大扩容”!

过去两年,全球AI产业对英伟达的依赖度过高、过于集中!英伟达的任何波动——如产能紧张、交付延迟或价格变动——都会引发行业连锁反应!TPU大规模进入市场,本质上是为全球AI产业开辟第二条成熟、可靠的算力供给线!

这带来的影响远超“多一个选择”!它使大模型公司、云厂商和企业用户首次能像点餐一样,对算力进行组合式、精细化配置:

稳定、重复性工作:直接交由ASIC(专用芯片)。

需灵活、高通用性的大模型:继续使用GPU(英伟达阵营)。

对成本敏感、追求极致性价比的任务:用TPU深度优化。

超高安全要求的场景:采用本地化部署。

这意味着,AI基础设施正从“英伟达主导”的单一生态,升级为“客户主导”的“多层次算力池”!算力不再是单一商品,而是可组合、可调度、可精细管理的资源体系!

这种结构性变化,直接影响资本市场对两条链的估值逻辑:

英伟达链:侧重生态、通用性和平台溢价,属于“成熟期估值体系”。

谷歌链:侧重订单、产能和扩张速度,属于“成长期加速度逻辑”。

这不是两条供应链的相互替代,而是全球AI基建首次形成更均衡、更弹性、更具扩展空间的双轨结构:

英伟达推高天花板——让模型更强大;

谷歌拓宽高速路——让算力供给更可持续、更规模化。

事实上,任何公司展示更高效的训练网络(无论GPU还是TPU),都会加强市场对“AI持续扩张”的信心循环。谷歌此次突破,不是GPU的终结,而是下一轮算力投资的开端。因为越多公司加入AI竞赛,越多训练管线启动,全球对GPU的需求反而更旺盛——所有追赶者都需要更多GPU来缩小差距。

AI赛道终究不是“谁家芯片更省电”的竞赛,而是“谁能加速算力扩张”的竞赛。在这条扩张曲线上,英伟达仍是目前唯一能让全球快速“放大算力”的基础设施提供者。

因此,谷歌链的爆发并非稀释英伟达,而是为未来3~5年万亿级算力扩张铺设更安全、更立体、更可持续的双轨基建。两条链不是对立,而是共同驱动下一轮超大周期的引擎。