当前位置:首页 > 科技资讯 > 正文

未来AI硬件:多元化生态系统与Transformer的统治

未来几年,AI硬件市场将发生哪些变化?Transformer架构是否仍具统治力?

在最新播客《Unsupervised Learning》中,Tri Dao分享了他对GPU市场、推理成本、模型架构以及AI未来趋势的深度洞察。他认为,未来2-3年内,随着针对不同工作负载类别的专用芯片出现,AI硬件格局将从NVIDIA当前约90%的主导地位,转向更加多元化的生态系统。

未来AI硬件:多元化生态系统与Transformer的统治 Transformer AI硬件 多样化生态系统 推理优化 第1张

  • 技术如MoE架构、推理优化、模型量化等促成了模型推理成本的下降。
  • 未来将会出现三类工作负载模式:传统聊天机器人、极低延迟场景、大规模批处理/高吞吐场景。

Tri Dao不仅是Flash Attention的作者,而且还是Mamba的作者之一。同时,他也是TogetherAI的首席科学家、普林斯顿大学教授。

未来AI硬件:多元化生态系统与Transformer的统治 Transformer AI硬件 多样化生态系统 推理优化 第2张

他对硬件市场以及AI硬件未来发展的判断极具参考价值。接下来,让我们一同探讨他的深度见解。

访谈内容

Nvidia 的主导地位及其竞争者

Q:在英伟达生态体系,比如芯片层面或者GPU系统整合方面,会看到新的竞争者吗?

Tri Dao:确实会有很多竞争者进入这个领域。AMD已经在这里很久了。但随着工作负载逐渐集中在特定架构上,比如Transformer、MoE等,设计适配这种工作负载的芯片会变得更容易。

在推理端,AMD有一些优势,比如更大的内存。而在训练端,网络通信是主要瓶颈,英伟达在这方面仍然领先。

我预计未来几年,部分工作负载会进入“多芯片”时代。

芯片设计中的挑战

Q:如果说现在90%的工作负载还在英伟达芯片上运行,那么你觉得两三年后会怎样?

Tri Dao:在推理端,会出现多样化。我们已经开始看到像CerebrasGrokSambaNova这样的公司带来的挑战。

市场会多样化,因为工作负载本身也会越来越多样:低延迟、高吞吐,甚至可能是视频生成。

推理优化技术

Q:未来的推理优化技术还会有哪些改进?

Tri Dao:我认为还会有大约10倍的提升空间。

首先是硬件端优化,比如加强对低精度的原生硬件支持、改进网络通信等。其次是模型层面的改进,如更高效的注意力机制等。最后是内核实现层面的优化。

专门化的AI推理

Q:你觉得生态会由单一能覆盖所有场景的供应商主导,还是会出现专门化?

Tri Dao:我认为可能会出现三类工作负载模式。

  • 传统聊天机器人
  • 极低延迟场景
  • 大规模批处理/高吞吐场景

AI工作负载演进与开源工具

Q:你觉得推理市场未来的发展如何?优化空间是否无限?

Tri Dao:开源工具已经非常成熟,但工作负载在不断演化。即便开源工具越来越好,总有新事情可做。

架构创新和专家级别的AI

Q:假如可以快进三年,得到AI基础设施领域一个关键问题的答案,这个问题会是什么?哪一个问题的答案最能影响你们今天的战略?

Tri Dao:接下来几年,我想回答的问题是:我们如何让AI达到专家水平?

学术界与工业界的平衡

Q:你是如何考虑在学术和工业之间的选择的?

Tri Dao:我喜欢同时做创业和做教授。这两种模式提供了不同的思维和执行方式。