当前位置:首页 > 科技资讯 > 正文

特斯拉Dojo项目的终结:自研训练芯片之路的启示

特斯拉Dojo项目的终结:自研训练芯片之路的启示 特斯拉 Dojo 自研训练芯片 英伟达 第1张

近期,特斯拉解散Dojo团队并伴随负责人离职的消息引起了广泛关注,令众多观众为之惋惜。

近年来,无论是训练芯片的大公司还是初创企业,都经历了诸多挫折:Graphcore曾以“IPU对抗GPU”为口号,但最终被软银收购;英特尔/Habana(Gaudi)路线多变、生态分裂,如今逐渐并入GPU/Falcon Shores体系,淡化独立加速器路线;Cerebras坚持晶圆级(WSE)差异化,产品与订单在增长,但商业化和生态仍远未与CUDA可比——这更像是“特种装备”而非“通用平台”。

自研训练芯片的道路对绝大多数公司而言并不可行,成功的例子极为罕见,并非可复制的范式。而这一次,英伟达再次取得胜利。

Dojo的“高开低走”

Dojo是特斯拉为“现实世界场景”模型训练而自研的数据中心级训练系统。2019年4月,马斯克在“Autonomy投资者日”首次提出Dojo概念;2020年8月,他称受限于供电与散热,系统“还需大约一年”才能就绪。2021年8月的AI Day上,特斯拉正式发布D1与Training Tile,并同步公开CFloat8/16白皮书,描绘了一条“自研算力+自研数值格式”的硬核路线。

在2022年的AI Day上,特斯拉给出了Dojo的系统化扩展路径:从自研D1芯片 → Training Tile(5×5)→ System Tray → Cabinet → ExaPOD,目标是实现“超1 ExaFLOP级”的ML计算能力。

  • D1:台积电7nm,约500亿晶体管,645mm²,354个计算核心;单芯BF16/CFP8≈362TFLOPS。
  • Training Tile:25颗D1组成一块水冷Tile,BF16≈9PFLOPS,以高带宽片间互联为卖点。

市场对Dojo的预期曾被推到高位——2023年,摩根士丹利曾估算Dojo可能为特斯拉带来约5000亿美元的增量价值。然而,直到2025年Q2财报会上,马斯克仍表示Dojo 2的目标是对标约10万台H100等价物。但现实层面,项目最终叫停。

期间多位核心技术负责人相继离开:2018年,最初受聘领导特斯拉芯片工作的Jim Keller离任;随后Ganesh Venkataramanan接棒,2023年离开并创立DensityAI;近年持续主导芯片项目的Peter Bannon亦已离职,Dojo项目随之收尾。

更明确的证据来自并行路线的推进。早在2024年Q4,特斯拉在奥斯汀上线“Cortex”训练集群(对外口径为约5万张H100),并在Q2’25股东信里披露新增1.6万H200,使整体规模约等于6.7万张H100。这说明Dojo未能成为主力产线,特斯拉更多转向“采购成熟GPU平台”。事实也证明,买卡比造卡更快:除特斯拉外,马斯克体系的xAI/“Colossus”同样大规模采用英伟达GPU。

亡羊补牢,为时未晚

如今,特斯拉及时扭转局面。

训练侧:外采为主。特斯拉把主力训练转向可即刻部署、可线性扩容、生态成熟的英伟达(并补充部分AMD),把“模型训练周转率(Time-to-Train)”拉回商业节奏。

推理侧:自研为主。与三星敲定165亿美元长期代工协议(AI6),将车载/机器人/边缘推理算力自控在手,贴近产品、风险更低、迭代更快。

组织侧:约20名原训练团队成员加入DensityAI,其余并入公司数据中心/算力工程,避免在尚未收敛的训练芯片路线继续“烧时间”。

这套组合拳很务实:训练端“买成熟产线”,推理端“做自己最懂的场景”,既把Time-to-Train和Time-to-Market拉回到商业节奏内,也避免在生态战里被迫充当“软件平台提供商”。

Dojo项目的倒闭可能对特斯拉来说并不是一个很大的损失。8月8日,马斯克在社交平台X上回应称:“没有必要同时扩展两条截然不同的训练芯片路线;Tesla AI5、AI6以及后续芯片在推理方面将非常出色。”

为什么“自研训练芯片”这么难?

1)生态与软件壁垒

训练芯片并非单芯片竞赛,框架适配、编译器、内核库、并行策略、调优工具链才是耗时的主要环节。英伟达将CUDA/cuDNN/各类并行库打磨了十几年,后来者很难追平这个“隐形工程量”。多家厂商在软件成熟度上“掉链子”,训练端难以稳定释放算力密度。

2)系统工程与供应链

先进封装(CoWoS/SoIC)、HBM供给、机柜/供配电/散热、互联拓扑、集群调度、可靠性工程等任何环节不强都会导致TCO被市售GPU平台反杀。尤其是先进封装和HBM这两块,2025年NVIDIA至少锁定台积电CoWoS-L七成产能的报道频出。没有这些供给保障,自研方案即便流片成功也会在封装与内存上“卡脖子”。

3)需求与现金流节奏

自研需要稳定、可预期且超大规模的自用训练需求来摊薄巨额前期投入。除谷歌(TPU)和AWS(Trainium)这类云巨头外,鲜有人能把“芯片—集群—云服务”联动成正循环。

4)机会成本

AI时代下英伟达和AMD两大AI芯片玩家均以季度为单位推进代际升级。自研芯片的代次跨度很容易一上板就过时落地即落后。在这种情况下再走一条自研路边际价值更小失败成本更高。

Dojo的叫停不等于“自研训练芯片永无出路”。云巨头例外依然成立:Google TPU、AWS Trainium能跑通是因为它们拥有超大稳定的自用训练需求+云服务生态+算法/框架协同能把“芯-机-云-软件”串成正循环。但对车企/应用公司而言缺生态+缺供应链+节奏跟不上机会成本才是终极杀手。

英伟达赢在哪里?

英伟达的胜利是系统性胜利。不只是GPU领先而是从硅到机架到网络到软件的全栈交付能力:

  • 硬件层:GPU + NVLink/NVSwitch + 高带宽内存 + 机架级整机;
  • 网络层:InfiniBand 与 Spectrum-X 以太网两套方案覆盖不同客户偏好与成本模型;
  • 软件层:CUDA体系与全栈库/工具保障“可用算力/周”;
  • 交付层:从整柜到整机房的“交钥匙工程”缩短客户的Time-to-Train。

结语

特斯拉关掉Dojo并非输给了更强大的芯片而是输给了更强大的“产业系统”。自研训练芯片这条路对绝大多数公司而言不具可复制性;而在“买卡+更快上线+产品侧自控推理”的组合里英伟达再次赢下了时间、生态与现金流的三重赛点。