当前位置：首页 > 科技资讯 > 正文

特斯拉Dojo项目的终结：自研训练芯片之路的启示

主机测评网
科技资讯
2026-04-21
960

特斯拉Dojo项目的终结：自研训练芯片之路的启示特斯拉 Dojo 自研训练芯片英伟达第1张

近期，特斯拉解散Dojo团队并伴随负责人离职的消息引起了广泛关注，令众多观众为之惋惜。

近年来，无论是训练芯片的大公司还是初创企业，都经历了诸多挫折：Graphcore曾以“IPU对抗GPU”为口号，但最终被软银收购；英特尔/Habana（Gaudi）路线多变、生态分裂，如今逐渐并入GPU/Falcon Shores体系，淡化独立加速器路线；Cerebras坚持晶圆级（WSE）差异化，产品与订单在增长，但商业化和生态仍远未与CUDA可比——这更像是“特种装备”而非“通用平台”。

自研训练芯片的道路对绝大多数公司而言并不可行，成功的例子极为罕见，并非可复制的范式。而这一次，英伟达再次取得胜利。

Dojo的“高开低走”

Dojo是特斯拉为“现实世界场景”模型训练而自研的数据中心级训练系统。2019年4月，马斯克在“Autonomy投资者日”首次提出Dojo概念；2020年8月，他称受限于供电与散热，系统“还需大约一年”才能就绪。2021年8月的AI Day上，特斯拉正式发布D1与Training Tile，并同步公开CFloat8/16白皮书，描绘了一条“自研算力+自研数值格式”的硬核路线。

在2022年的AI Day上，特斯拉给出了Dojo的系统化扩展路径：从自研D1芯片 → Training Tile（5×5）→ System Tray → Cabinet → ExaPOD，目标是实现“超1 ExaFLOP级”的ML计算能力。

D1：台积电7nm，约500亿晶体管，645mm²，354个计算核心；单芯BF16/CFP8≈362TFLOPS。
Training Tile：25颗D1组成一块水冷Tile，BF16≈9PFLOPS，以高带宽片间互联为卖点。

市场对Dojo的预期曾被推到高位——2023年，摩根士丹利曾估算Dojo可能为特斯拉带来约5000亿美元的增量价值。然而，直到2025年Q2财报会上，马斯克仍表示Dojo 2的目标是对标约10万台H100等价物。但现实层面，项目最终叫停。

期间多位核心技术负责人相继离开：2018年，最初受聘领导特斯拉芯片工作的Jim Keller离任；随后Ganesh Venkataramanan接棒，2023年离开并创立DensityAI；近年持续主导芯片项目的Peter Bannon亦已离职，Dojo项目随之收尾。

更明确的证据来自并行路线的推进。早在2024年Q4，特斯拉在奥斯汀上线“Cortex”训练集群（对外口径为约5万张H100），并在Q2’25股东信里披露新增1.6万H200，使整体规模约等于6.7万张H100。这说明Dojo未能成为主力产线，特斯拉更多转向“采购成熟GPU平台”。事实也证明，买卡比造卡更快：除特斯拉外，马斯克体系的xAI/“Colossus”同样大规模采用英伟达GPU。

亡羊补牢，为时未晚

如今，特斯拉及时扭转局面。

训练侧：外采为主。特斯拉把主力训练转向可即刻部署、可线性扩容、生态成熟的英伟达（并补充部分AMD），把“模型训练周转率（Time-to-Train）”拉回商业节奏。

推理侧：自研为主。与三星敲定165亿美元长期代工协议（AI6），将车载/机器人/边缘推理算力自控在手，贴近产品、风险更低、迭代更快。

组织侧：约20名原训练团队成员加入DensityAI，其余并入公司数据中心/算力工程，避免在尚未收敛的训练芯片路线继续“烧时间”。

这套组合拳很务实：训练端“买成熟产线”，推理端“做自己最懂的场景”，既把Time-to-Train和Time-to-Market拉回到商业节奏内，也避免在生态战里被迫充当“软件平台提供商”。

Dojo项目的倒闭可能对特斯拉来说并不是一个很大的损失。8月8日，马斯克在社交平台X上回应称：“没有必要同时扩展两条截然不同的训练芯片路线；Tesla AI5、AI6以及后续芯片在推理方面将非常出色。”

为什么“自研训练芯片”这么难？

1）生态与软件壁垒

训练芯片并非单芯片竞赛，框架适配、编译器、内核库、并行策略、调优工具链才是耗时的主要环节。英伟达将CUDA/cuDNN/各类并行库打磨了十几年，后来者很难追平这个“隐形工程量”。多家厂商在软件成熟度上“掉链子”，训练端难以稳定释放算力密度。

2）系统工程与供应链

先进封装（CoWoS/SoIC）、HBM供给、机柜/供配电/散热、互联拓扑、集群调度、可靠性工程等任何环节不强都会导致TCO被市售GPU平台反杀。尤其是先进封装和HBM这两块，2025年NVIDIA至少锁定台积电CoWoS-L七成产能的报道频出。没有这些供给保障，自研方案即便流片成功也会在封装与内存上“卡脖子”。

3）需求与现金流节奏

自研需要稳定、可预期且超大规模的自用训练需求来摊薄巨额前期投入。除谷歌（TPU）和AWS（Trainium）这类云巨头外，鲜有人能把“芯片—集群—云服务”联动成正循环。

4）机会成本

AI时代下英伟达和AMD两大AI芯片玩家均以季度为单位推进代际升级。自研芯片的代次跨度很容易一上板就过时落地即落后。在这种情况下再走一条自研路边际价值更小失败成本更高。

Dojo的叫停不等于“自研训练芯片永无出路”。云巨头例外依然成立：Google TPU、AWS Trainium能跑通是因为它们拥有超大稳定的自用训练需求+云服务生态+算法/框架协同能把“芯-机-云-软件”串成正循环。但对车企/应用公司而言缺生态+缺供应链+节奏跟不上机会成本才是终极杀手。

英伟达赢在哪里？

英伟达的胜利是系统性胜利。不只是GPU领先而是从硅到机架到网络到软件的全栈交付能力：