当前位置:首页 > 科技资讯 > 正文

TPU崛起:重塑AI算力版图

当谷歌的大模型Gemini 3在2025年末展现出惊人的多模态处理速度和低延迟时,人们的目光通常聚焦于算法的进步。然而,真正驱动这一切的幕后英雄,是谷歌数据中心机架上默默运行的——TPU (Tensor Processing Unit),这是谷歌潜研10年的成果。

长久以来,英伟达凭借其“通用而强大”的GPU统治了模型训练领域。但随着大模型进入规模化应用阶段,算力逻辑正在发生根本性变化:“训练为王”的旧秩序正在瓦解,而“推理为王”的新时代已经到来。

当专用架构的极致效率突破了通用架构的局限,以TPU为代表的ASIC芯片正不可阻挡地从英伟达手中接过主角的剧本,重塑全球AI算力的格局。

成本为王,芯片变革

近年来,大模型和AI成为热门话题。大模型的诞生如同一个人的成长:通过预训练“博览群书”,学习语言结构和世界知识;再通过指令微调,学会如何组织表达回答;接着借助基于人类反馈的强化学习,使回答更符合人类偏好;最后经过压缩和工程优化部署到服务器上。

其中,预训练、微调和强化学习是“训练”阶段。在这个阶段,谁能更快搭建起大模型,谁就能抢占话语权。而大规模推理服务则需要考虑成本。此时的核心议题不再是能否训练模型,而是能否在保证性能的前提下降低每次推理的成本。

TPU崛起:重塑AI算力版图 TPU 专用架构 AI算力 全栈竞争 第1张

因为无论是OpenAI还是国产大模型,其核心商业模式都是按每百万Token计费。只有不断降低单个Token的成本,并提升生成质量与可靠性,才能使得AI像电力一样普及。这也是大家对Token per dollar关注度增长的原因。

在这种“成本为王”的背景下,算力竞争版图正在重塑。高盛报告指出,以谷歌TPU为代表的专用架构正成为强有力的挑战者。从TPU v6到TPU v7,谷歌已将每百万token的推理成本降低了约70%。

TPU崛起:重塑AI算力版图 TPU 专用架构 AI算力 全栈竞争 第2张

成本曲线的陡峭下行也在现实世界引发共振。Anthropic与博通签订了价值高达210亿美元的TPU订单。这标志着以谷歌TPU为代表的ASIC芯片从探索进入大规模商业部署阶段。

这种成本优势甚至成为博弈筹码。SemiAnalysis透露,OpenAI通过“威胁购买TPU”,迫使英伟达生态链做出让步,使其计算集群的总拥有成本下降了约30%。可以说,英伟达对Groq核心推理技术的获取及核心人员招募,也是面对新趋势的防守之策。

行业变革的齿轮在成本的重压下悄然加速转动。从“通用算力竞赛”进入“能效比对决”时代,以TPU为代表的ASIC已然崛起。

TPU背后:专用计算极致

ASIC并非新鲜事物。早在GPU统治算力时代前,FPGA和ASIC的优劣势就有所讨论。谷歌TPU能成功冲击英伟达高墙,源于其对专用计算的极致追求。

与兼顾通用性的GPU不同,TPU采取精简的架构设计:砍掉与AI推理无关的图形处理单元,将晶体管资源集中于大模型的核心矩阵运算。

更重要的是,TPU引入独特的脉动阵列架构,让数据在计算单元间连续流动,大幅减少寄存器读写。配合大容量片上SRAM缓存与高效数据搬运引擎DMA,TPU显著降低了“数据搬运”这一主要能耗瓶颈。

TPU崛起:重塑AI算力版图 TPU 专用架构 AI算力 全栈竞争 第3张

然而,长期以来,英伟达凭借“软硬一体”的封闭生态和CUDA护城河掌握AI时代的定价权。对于客户而言,迁移至其他芯片平台需要高昂的软件适配成本。

谷歌采取“硬件进化、软件开源”的双重攻势:其XLA编译技术不仅支持TensorFlow和JAX框架,也适配主流开源框架PyTorch。谷歌联合多家科技巨头发起OpenXLA开源项目,打通从多框架模型到不同硬件的统一编译路径。

TPU崛起:重塑AI算力版图 TPU 专用架构 AI算力 全栈竞争 第4张

在AI计算从“算力堆叠”转向效率与规模并重的趋势下,通过精简架构、脉动阵列、片上大缓存与数据搬运引擎等硬件创新,结合软硬件协同的开源生态构建,谷歌TPU逐渐构筑起在推理场景下的独特优势。

本土芯片厂商的不谋而合

奕行智能的发展历程与当前成果显示,这与公司自成立就坚持打造AI技术底座有关。自成立以来,公司在软硬件及生态上全面布局,与TPU及DSA(ASIC)演进趋势不谋而合。

在硬件层面,奕行智能采用类TPU架构,其矩阵、向量、标量的精简设计完全匹配大模型的计算特点,显著降低了传统GPGPU架构中的额外开销(包括算力、带宽、编程投入等),有效提高能效比与面积效率。

其大尺寸矩阵运算引擎采用双脉动流水设计,数据复用率提升数倍且显著减少数据前处理开销。编程也更为简单易用。

TPU崛起:重塑AI算力版图 TPU 专用架构 AI算力 全栈竞争 第5张

精度演进:低位宽与高精度

“低位宽、高精度”的数据格式支持成为突破能效瓶颈的关键路径之一。例如,TPU Tensor Core在FP8模式下提供2倍于BF16的算力密度。

从谷歌TPU v2首次引入BF16到DeepSeek提出分块量化FP8等创新都指向一个共同逻辑:压缩数据位宽能释放性能红利并保持高精度。

奕行智能的AI芯片支持传统浮点及整型数据类型外,还率先支持DeepSeek所需的基于分块量化的FP8计算精度,并在新一代产品支持NVFP4、MXFP4等前沿数据格式。

超越芯片:软件与生态

协同进化

仅靠芯片创新不足以在竞争中突围,还需在软件和生态上多下功夫。奕行智能融合谷歌开源的StableHLO和XLA技术,全面支持主流框架。

TPU崛起:重塑AI算力版图 TPU 专用架构 AI算力 全栈竞争 第6张