当前位置:首页 > 科技资讯 > 正文

AGI之争:物理极限与硬件潜力,谁将定义未来?

大模型的通用性和泛化能力正日益增强,展现出前所未有的潜力。

尽管一些新模型,例如备受争议的 GPT-5.2,在专业任务处理和智能水平上已达到相当高的水准,但距离我们理想中的 AGI(通用人工智能)仍有漫长的路要走。

AGI之争:物理极限与硬件潜力,谁将定义未来? AGI  物理限制 硬件效率 规模法则 第1张

不过,这也反映出业界对 AGI 的热情与信心丝毫未减,或许下一款突破性的大模型就能初步实现 AGI 的构想。

然而,近期卡耐基梅隆大学教授,AI2 研究科学家 Tim Dettmers发布了一篇题为《Why AGI Will Not Happen》的长文博客,提出由于物理层面的根本限制,我们既无法实现 AGI,也无法达成任何有意义的超级智能

这一观点给满怀期待的 AI 社区泼了一盆冷水,引发了广泛讨论。

AGI之争:物理极限与硬件潜力,谁将定义未来? AGI  物理限制 硬件效率 规模法则 第2张

为何 AGI 难以实现

这篇文章深入探讨了硬件演进、通用人工智能、超级智能、规模法则以及 AI 泡沫等议题。

AGI之争:物理极限与硬件潜力,谁将定义未来? AGI  物理限制 硬件效率 规模法则 第3张

博客原文:https://timdettmers.com/2025/12/10/why-agi-will-not-happen/

计算的物理本质

许多关于 AGI、超级智能、规模法则及硬件进步的讨论,往往停留在抽象层面,如同哲学思想实验。这源于对 AI 与规模化关系的一个根本误解:计算本质上是物理过程。

实现高效计算需要在两方面取得平衡:将全局信息移至局部区域,以及将多份局部信息汇聚并转化为新信息。尽管局部计算的复杂性大致恒定——更小的晶体管能大幅加速这一过程,但信息移动到局部计算单元的距离却呈平方级增长——虽然也受益于晶体管缩小,但由于内存访问模式的平方特性,改进效果很快变得次线性。

两个关键点需要牢记:第一,缓存越大,访问速度越慢。第二,随着晶体管尺寸不断缩减,计算成本越来越低,而内存的相对成本却越来越高

如今,计算单元在芯片中的占比已微不足道,大部分面积被内存占据。若在一块芯片上实现 10 exaflops 的算力,却无法提供足够的内存带宽,这些 FLOPS 就会成为「无效算力」。

正因如此,像 Transformer 这样的 AI 架构本质上是物理驱动的。我们的架构并非天马行空的抽象设计,而是对信息处理单元进行物理层面的优化结果。

要有意义地处理信息,必须完成两项任务:一是计算局部关联(MLP),二是将远程信息汇聚到局部邻域(注意力机制)。这是因为,仅凭局部信息只能区分高度相似的内容,而汇聚远程信息则能构建更复杂的关联,用以对比或补充局部细节。

Transformer 架构以最简洁的方式结合了局部计算与全局信息汇聚,已非常接近物理最优解

计算的物理属性同样适用于生物系统。所有动物的计算能力都受限于其生态位中可获取的热量。若大脑再大,人类将无法繁衍,因为能量供给不足。这使得我们当前的智能水平成为一道因能量限制而无法逾越的物理边界。

我们正在逼近数字计算的物理极限。

线性进步需要指数级资源

这里存在两种现实:一是物理现实,二是观念空间中的现实。

在物理现实中,若要在时间和空间上聚集资源以产生某种结果,受物流和组织因素制约,线性规模的效果往往需要线性规模的资源投入。但由于物理限制,资源在空间或时间上会产生竞争,使得资源汇聚速度必然放缓。

观念空间也存在类似但较隐蔽的现象。若两个想法完全独立,它们叠加后的效果可能比单一想法大十倍。但如果想法彼此相关,由于边际收益递减,总体影响将受限。若一个想法建立在另一个之上,其改进幅度有限。很多时候,只要存在依赖关系,其中一个想法就只是对另一个的细化或打磨。而这种「精修式」想法,即便极具创意,也只能带来渐进式改进。

当一个领域足够庞大时,即使刻意研究看似不同的思路,它们仍与既有想法高度相关。例如,状态模型和 Transformer 看似是两种不同的注意力机制路线,但其实都在解决同一个问题。通过这种方式改造注意力机制,所能获得的收益非常有限。

这种关系在物理学中尤为明显。曾经,物理学的进展可由个体完成——如今基本不再可能。

观念空间的核心困境在于:如果想法仍局限于同一子领域,几乎不可能产生有意义的创新,因为大多数东西早已被思考过。因此,理论物理学家实际上只剩两条路:要么对现有思想进行渐进式修补,结果影响微乎其微;要么尝试打破常规、提出非传统想法,但这些想法可能很有趣,却难以对物理理论产生明确影响。

实验物理则直观展示了物理层面的限制。为了检验越来越基础的物理定律和基本粒子——即标准模型——实验成本正变得越来越高。标准模型并不完整,但我们不知道如何修补它。大型强子对撞机在更高能量下的实验,只带来了更多不确定结果和对更多理论的否定。尽管我们建造了耗资数十亿美元、日益复杂的实验装置,但我们依然不知道暗能量和暗物质究竟是什么。

若想获得线性改进,就必须付出指数级资源。

GPU 进步已近停滞

我常遇到的一个误解是:人们默认硬件会不断进步。几乎所有 AI 创新,都由 GPU 效率提升所驱动。

AlexNet 之所以成为可能,是因为早期 CUDA 实现让卷积能在多张 GPU 上并行计算。此后的大多数创新,也主要依赖更强的 GPU 及更多 GPU 的使用。几乎所有人都观察到这种模式——GPU 变强,AI 性能提升——于是自然认为 GPU 会继续变强,并持续推动 AI 进步。

实际上,GPU 已不再有实质性提升。我们基本见证了最后一代真正重要的 GPU 改进。GPU 的「性能/成本」指标大约在 2018 年左右达到峰值,此后加入的只是一些很快会被消耗殆尽的一次性特性。

这些一次性特性包括:16 位精度、Tensor Core(或等价方案)、高带宽内存(HBM)、TMA(或等价机制)、8 位精度、4 位精度。而现在,无论在物理层面还是观念空间,我们都已走到尽头。我在论文中展示过 k-bit 推理缩放定律:在特定块大小和计算布局下,哪些数据类型最优。这些结论已被硬件厂商采纳。

任何进一步改进,都不再是「纯收益」,而只会变成权衡:要么用更低计算效率换取更好内存占用,要么用更高内存占用换取更高计算吞吐。即便还能继续创新——而因为线性进步需要指数级资源——这些改进也将微不足道,无法带来任何有意义的跃迁。

虽然 GPU 本身已无法显著改进,但机架级优化依然至关重要。

高效搬运 KV cache 是当前 AI 基础设施中最重要的问题之一。不过,这个问题的现有解决方案其实相当直接。因为在这个问题上,基本只存在一种最优架构。实现起来当然复杂,但更多依赖清晰思路及大量艰苦、耗时的工程工作,而非新颖的系统设计。

无论是 OpenAI 还是其他前沿实验室,在推理和基础设施栈上都不存在根本性优势。唯一可能形成优势的方式,是在机架级或数据中心级硬件优化上略胜一筹。但这些红利同样会很快耗尽——也许是 2026 年,也许是 2027 年。

为何「规模化」并不足够

我相信缩放定律,也相信规模化确实能提升性能,像 Gemini 这样的模型显然是优秀的模型。

问题在于:过去,为了获得线性改进,我们恰好拥有 GPU 指数级增长这一「对冲因素」,它抵消了规模化所需的指数级资源成本。换句话说,以前我们投入大致线性的成本,就能获得线性的回报;而现在,这已转变为指数级成本

这意味着一个清晰且迅速逼近的物理极限。我们可能只剩一年,最多两年的规模化空间,因为再往后,改进将变得在物理上不可行。2025 年的规模化收益并不亮眼;2026 年和 2027 年的规模化,最好能真正奏效。

尽管成本呈指数级增长,目前的基础设施建设在一定程度上仍合理,尤其是在推理需求不断增长的背景下。但这依然形成了一种非常脆弱的平衡。最大问题在于:如果规模化带来的收益不明显优于研究或软件层面的创新,那么硬件就会从「资产」变成「负债」。

像 MoonshotAI、Z.ai 这样的中小型玩家已证明,他们并不需要大量资源就能达到前沿性能。如果这些公司在「超越规模化」方向上持续创新,它们完全有可能做出最好的模型。

规模化基础设施面临的另一重大威胁在于:目前,大模型推理效率与庞大的用户基数高度相关,这源于网络层面的规模效应。要实现高效的大模型部署,需要足够多的 GPU,才能在计算、网络通信以及 KV-cache 分段之间实现有效重叠。这类部署在技术上极其高效,但必须依赖庞大用户规模才能实现充分利用,从而具备成本优势。这也是为何开源权重模型至今没有产生预期影响——因为大规模部署的基础设施成本,要求必须有足够大的用户群体。

目前,vLLM 和 SGLang 主要在优化大规模部署,但它们并不能在小规模场景下提供同样效率。如果有一套超越 vLLM / SGLang 的推理栈,人们就可以用与 OpenAI 或 Anthropic 部署前沿模型几乎相同的效率,来部署一个约 3000 亿参数的模型。一旦较小模型变得更强(我们已在 GLM 4.6 上看到这一趋势),或者 AI 应用变得更加垂直和专用,前沿实验室的基础设施优势可能会在一夜之间消失。软件复杂性会迅速蒸发,而开源、开权重的部署方案,可能在计算效率和信息处理效率上都接近物理最优。这对前沿玩家而言,是一个巨大风险。

在规模化放缓背景下,以下三种因素中的任何一个,都可能迅速而显著地削弱 AI 基础设施的价值:

(1)研究与软件层面的创新;

(2)强大的开源权重推理栈;

(3)向其他硬件平台的迁移。

从当前趋势看,这对前沿实验室并不是一个乐观的局面。

前沿 AI 路径与理念

美国和中国在 AI 上采取了两种截然不同的路径。美国遵循的是一种「赢家通吃」思路——谁先构建出超级智能,谁就赢了。其核心信念是:把模型做到最大、最强,人自然会来。

中国的理念则不同。他们认为,模型能力本身没有应用重要。真正重要的是你如何使用 AI,这个模型是否实用、是否能以合理成本带来生产力提升。如果一种新方案比旧方案更高效,它就会被采用;但为了略微更好的效果而进行极端优化,往往并不划算。在绝大多数情况下,「足够好」反而能带来最大的生产力提升。

我认为,美国的这种理念是短视且问题重重的——尤其是在模型能力增速放缓的情况下。相比之下,中国的思路更加长期、更加务实。

AI 的核心价值在于:它是否有用,是否提升生产力。正因如此,它才是有益的。就像计算机和互联网一样,AI 显然会被用到各个角落。这使得 AI 在全社会范围内的经济整合对其有效性至关重要。

AGI 不会发生,超级智能是幻想

我注意到一个反复出现的模式:当你问硅谷的人 AGI 什么时候会到来,他们总会说「再过几年」,而且会带来巨大冲击。但当你进一步问他们 AGI 到底是什么,他们的定义里既不包含任何物理任务,也不考虑资源投入。

真正的 AGI——能够做人类能做的一切——必须具备执行物理任务的能力。简而言之,AGI 必须包括能够在现实世界中完成具有经济意义工作的实体机器人或机器。

然而,尽管家用机器人或许能帮你把洗碗机里的碗拿出来,但你不会看到它们取代工厂里的专用系统。工厂中的专用机器人效率更高、精度更强。中国已经证明,「黑灯工厂」——完全自动化的工厂——是可行的。在受控环境中,大多数机器人问题其实已被解决。而那些尚未解决的机器人问题,往往在经济上也并不划算。比如,把 T 恤的袖子缝上去仍是一个未完全解决的机器人问题,但在大多数情境下,这件事并没有多大经济意义。

机器人领域的根本问题在于:学习同样遵循与语言模型相似的缩放定律。而物理世界的数据收集成本极其高昂,且现实世界的细节复杂到难以处理。

超级智能的根本谬误

超级智能这一概念建立在一个错误前提之上:一旦出现与人类同等甚至更强的智能(即 AGI),这种智能就可以自我改进,从而引发失控式的爆炸增长。我认为这是一个对整个领域有害的、根本性错误的观念。

其核心问题在于:它把智能视为一种纯抽象的东西,而不是扎根于物理现实的系统。要改进任何系统,都需要资源。即便超级智能在利用资源方面比人类高效,它依然受制于我前面提到的缩放规律——线性改进需要指数级资源。

因此,所谓超级智能,更像是在填补能力空白,而不是推动能力边界外扩。填补空白是有用的,但它不会引发失控式增长,只会带来渐进式改进

在我看来,任何以「追求超级智能」为主要目标的组织,最终都会遭遇巨大困难,并被那些真正推动 AI 经济扩散的参与者所取代。

是的,AGI 完全能够发生

读完 Tim Dettmers 的博客让人心凉半截,虽说有理有据,Dettmers 将 AGI 发展建立在物理和成本限制上的观点自然是正确的,规模扩大并非魔法,智能进化仍需高昂成本。

但我总觉得这个观点有些偏激和悲观。或许 AGI 并不等同于指数增加的算力,软硬件发展或许仍有空间。

加州大学圣地亚哥分校助理教授 Dan Fu 对 Dettmers 的博客持反对意见,他认为 Tim Dettmers 的分析遗漏了关于当前效率以及如何充分利用系统的关键信息,现在的系统仍有巨大的发展空间,目前还不存在实际意义上的限制。

AGI之争:物理极限与硬件潜力,谁将定义未来? AGI  物理限制 硬件效率 规模法则 第4张

这篇博客旨在论证当今的人工智能系统在软件和硬件效率方面还有巨大提升空间,并概述几条前进路径。同时将论证我们目前拥有的人工智能系统已经非常实用,即使它们不符合每个人对 AGI 的定义。

AGI之争:物理极限与硬件潜力,谁将定义未来? AGI  物理限制 硬件效率 规模法则 第5张

博客链接:https://danfu.org/notes/agi/

当今人工智能系统被严重低估

Tim 文章中的一个核心论点是:当今 AI 系统正在接近「数字计算极限」。这一论点隐含了两个前提假设:其一,当下模型(主要是 Transformer)已极其高效;其二,GPU 进步正在停滞——因此,我们不应再期待通往 AGI 的进展能继续以同样方式推进。

但若更仔细审视实际数据,会发现情况并非如此。我们可以从训练和推理两个角度深入分析,这将揭示出截然不同的前景和潜在方向。

训练:当前训练效率远未达到上限

今天最先进模型的训练效率,其实比它「本可以做到的」要低得多——我们之所以知道这一点,是因为它甚至比几年前的效率还要低。一个观察方式是通过训练过程中的 MFU(平均 FLOP 利用率)。这个指标衡量计算效率:你到底用了 GPU 理论算力的多少。

举例来说,DeepSeek-V3 和 Llama-4 的训练在 FP8 精度下只达到了大约 20% 的 MFU。相比之下,像 BLOOM 这样的开源训练项目,早在 2022 年就已达到 50% 的 MFU。

这种效率差距主要来自几个因素,其中一个重要原因是:DeepSeek-V3 和 Llama-4 都是混合专家(MoE)模型。MoE 层在算术强度上不如稠密 GEMM(矩阵乘)——它们需要更多权重加载的 I/O、更小规模的矩阵乘操作,因此更难达到高 FLOP 利用率。结果就是:相对于计算量,它们需要更多通信。换句话说,当下的模型设计并不是为了在 GPU 上实现最高训练 FLOP 利用率。

此外,这些训练本身也已是在上一代硬件上完成的。Blackwell 架构芯片的 FP8 吞吐量是 Hopper 的 2.2 倍,并且还支持原生 FP4 Tensor Core。再加上像 GB200 这样的机架级方案,以及通过 kernel 设计实现计算与通信重叠,都可以缓解当前模型中的通信瓶颈。若能实现高效、高质量、且 MFU 很高的 FP4 训练,理论上可用的 FLOPs 将最多提升 9 倍。

推理:效率问题甚至更严重

在推理阶段,情况实际上更糟。最优化的推理实现(例如 megakernel)甚至不再使用 MFU 作为指标,而是关注 MBU(最大带宽利用率)。

原因在于:自回归语言模型的瓶颈通常并不在计算,而在于从 GPU 内存(HBM)把权重加载到片上存储(SRAM / 寄存器 / 张量内存)。最顶级的优化实现,目标是尽可能隐藏这种延迟,目前大约能做到~70% 的 MBU。

但若切换回 MFU,会发现 FLOP 利用率往往是个位数(<5%)。

这并不是物理或硬件层面的根本极限。仅仅因为我们最早规模化的是自回归架构(因此遇到这些限制),并不意味着它们是唯一可行、也必须用来构建通用 AI 的架构。这个领域还很新,而我们几乎可以控制所有变量——无论是软件(模型架构、kernel 设计等),还是硬件。

前进方向:还有大量可挖掘空间

一旦真正理解了当前位置,就会发现几条非常清晰的前进路径,可以让我们更充分利用硬件。这些方向并不轻松,但也并非天方夜谭——事实上,每条路径上已有实际进展:

1. 训练高效的架构协同设计

设计能更好利用硬件的机器学习架构。这方面已有大量优秀工作。例如,Simran Arora 关于硬件感知架构的研究,以及 Songlin Yang 关于高效注意力机制的工作,它们表明:

Transformer 并非只有一种形态,很多变体都能保持高质量;

我们完全可以设计出在硬件利用率更高、且能良好扩展的架构。

2. 高质量、高效率的 FP4 训练

若能在 FP4 下完成训练,就能获得 2 倍的可用 FLOPs(推理侧已开始看到 FP4 带来的加速)。目前已有论文沿着这一方向探索,包括 Albert Tseng 和 NVIDIA 的出色工作。

3. 推理高效的模型设计

若能设计出在推理阶段使用更多 FLOPs 的模型架构,就有可能显著提升硬件利用率。值得关注的方向包括:

Inception Labs 和 Radical Numerics 的扩散式语言模型;

Ted Zadouri 关于「推理感知注意力机制」的研究。

巨大但尚未被充分利用的算力来源:分布在全球的手机和笔记本电脑上的计算资源——能否找到办法,把这些算力用于推理?

当下的 AI 训练和推理范式中,仍存在大量未被利用的余量。上述每一条研究方向,都在尝试填补这些空隙,让我们用更高硬件利用率训练出高质量模型。

模型是硬件的滞后指标

第二个重要观点是:模型的发布与能力水平,本质上是已启动的硬件建设及新硬件特性的滞后反映。

这一点从第一性原理出发其实不难理解——从新集群上线,到有人在其上完成预训练,再到后训练结束、模型真正能够通过 API 被使用,中间必然存在时间滞后。

集群规模

这里我再次以 DeepSeek-V3 为例——我们非常清楚它使用了多少硬件、训练了多长时间。DeepSeek-V3 的预训练发生在 2024 年末,只使用了 2048 张 H800 GPU。即便在一年后,它依然是开源模型生态中的重要参与者。

而我们也清楚,今天正在进行的集群建设规模要大得多:从初创公司部署的 4 万卡集群,到前沿实验室正在建设的 10 万卡以上集群。仅从纯粹集群规模看,这意味着高达 50 倍的算力建设正在发生。

新硬件特性

我们今天使用的大多数模型,在某种意义上都是老模型,因为它们是在上一代硬件上训练的。而新一代硬件带来了新特性,模型需要围绕这些特性进行(重新)设计。

FP4 训练,若可行,是一个非常明确的突破方向;

GB200 的机架级通信域(NVL72 通过高速 NVLink 连接 72 张 GPU)也是另一个极其清晰的突破点——它们既能缓解第一点中提到的低 FLOP 利用率问题,也为探索全新模型设计提供了杠杆。

我们目前仍处于 Blackwell 硬件周期的非常早期阶段。最近发布的 GPT-5.2,是最早一批使用 GB200 训练的模型之一(尽管它似乎也同时使用了 H100 和 H200)。

此外,还有一些不那么显眼但同样关键的硬件改进。一个例子是:在 B200 上,注意力计算受限,但瓶颈并不在 Tensor Core,而在指数运算上。原因其实很简单——Tensor Core 在代际升级中快了 2.2 倍,但超越函数单元的数量或速度却没有同比增长。好消息是,这类问题相对容易解决。B300 将超越函数单元数量翻倍,这在一定程度上可缓解这一瓶颈。

这些硬件改进当然需要工程投入,但再次强调——这并非什么火箭科学。这里存在大量唾手可得的低垂果实。

前进路径

在理解上述背景后,我们可以给出一些具体且现实的前进方向,进一步提升驱动顶级模型的有效算力:

1. 「加速等待」

在很大程度上,我们当前仍是在观察那些基于上一代集群预训练的模型表现。而一些团队已完成或正完成新一代超大规模集群的建设。这很可能只是一个等待模型发布的阶段性问题。

2. 面向硬件的专项优化

还有大量工作可以围绕新一代硬件特性展开:例如我们前面提到的 FP4;再如围绕完整机架级通信域来设计模型;或者针对 B200 / B300 上指数运算瓶颈的特性,对注意力机制进行适配和重构。

3. 新硬件与新的算力来源

最后,还有大量新硬件平台正在涌现,以及配套的软件栈,使它们能被 AI 使用。如今新硬件平台层出不穷,许多专注于推理场景,这里我不点名任何具体方案。但只要其中任何一个真正产生重大影响,整个局面就会被彻底改写。

距离有用的 AGI 还有多远?

最后一个观点,关注点已不再主要是系统或算力层面的 AI,而是 AGI 究竟意味着什么,以及要产生真实、可观影响需要什么。

理解这一部分的一个角度是:即便世界上所有系统层面和效率层面的进步都突然停滞,那么距离「有用的、类似 AGI 的能力」真正落地,我们还差多远?

若把 AGI 理解为一种「魔法棒」——可以挥一挥就完成地球上任何一个人能做的任何事——那显然我们还远未达到那个阶段。

但如果换一种更务实的定义:一套在某些任务上比大多数人做得更好、并能产生巨大经济影响的通用工具体系,那我们或许并没有想象中那么遥远。

在这里,我认为有必要回头看看仅仅两三年前的状态。无论是开源模型还是前沿模型,今天所能做到的许多事,在当时几乎都像魔法。就我个人而言,像 Claude Code、Cursor Composer 这样的工具,已越过一个关键阈值——我写的大多数代码,已是由模型生成的(这篇博客我倒还是用「传统方式」写的)。

在 GPU 内核工程这个领域,大模型带来的影响有几点让我惊讶:

在人类参与下,这些模型已非常擅长编写 GPU 内核代码。它们还没到完全零样本的程度,但只要提供足够上下文和引导,就能实现跨越栈中多个部分的复杂功能。这本身就是一种极具挑战性、且在现实中非常稀缺的工程能力,即便对资深程序员也是如此。

这些模型在编写工具链和构建可视化方面表现极佳,帮助我们理解下一步性能优化方向——从日志系统,到工作负载模拟,再到性能瓶颈的可视化分析。

即便只在现有能力基础上小幅前进,也不难想象模型能接管更大比例的技术栈,尤其是在人类参与控制模式下。事实上,这一代模型已经好用得离谱了。

即使假设我们无法获得任何更高效的新算法或新硬件,我们可能已掌握了一种方法,可以构建在特定领域中解决或加速 95% 问题的通用 AI 智能体或模型

至少可以肯定的是,我们已拥有一整套工具,只要配合合适的数据收集方式(例如 RLHF、构建强化学习环境)以及领域专家知识,就能被迁移到各种不同问题中。编程之所以最先被攻克,一个很自然的原因是:几乎所有 AI 研究者都会写代码,而它本身又具有极高经济价值。

当然,这里也正是 AI 研究的「主战场」。在上述约束条件下,我们仍可设想多种推进「有用 AI 工具」的方式:

1. 新的后训练范式

今天我们所说的后训练,既新也旧——新在具体实践方式(大规模 RLHF、构建环境测试模型等),旧在其核心思想本身。市面上会出现诸如 Tinker 及各种微调 API 平台,并非偶然。

2. 更好的样本效率

构建在更少数据、更少样本下也能学得更好的训练系统,或设计更优的数据筛选算法,以提升样本效率。总体而言,「以数据为中心的 AI」研究群体,正持续改善这一局面。

3. 传统意义上的「硬功夫」和领域经验

最后,即便我们自缚双手,假设模型能力完全不再提升——仍有大量应用场景和垂直领域,今天的 AI 模型就已能产生巨大影响。即使模型质量被冻结,系统层面的效率改进,也足以让许多高影响力应用真正落地。

我们仍处在理解和构建这项新技术的极早期阶段。从如何将其用于真实世界影响,到如何让它更好为人类服务,还有大量工作要做。这是一个令人兴奋的时代。

结论:通往 AGI 的多条道路

这篇博客的核心观点是:当前 AI 系统仍存在巨大提升空间,而通往更强 AI 的道路也远不止一条。只要仔细观察,你会发现通向至少一个数量级(10×)算力提升的具体路径和研究议程。

回到这篇文章最初动机:我非常欣赏 Tim 那篇博客的一点在于,它愿意直面从今天走向未来所必须跨越的具体障碍。我们可以共同设计更好利用现有和未来硬件的新模型,也可以沿多条路径推进,构建更强、更有用的模型。而将潜在路障如此清晰摊开讨论,本身就为「接下来该做什么、如何去做」提供了一张路线图。

三点总结

1. 当前 AI 系统对硬件的利用率极低。通过更好的模型–硬件协同设计,我们可以实现更高 FLOP 利用率,获得更多「有用的 FLOPs」。

2. 当前模型是硬件建设的滞后指标——无论是 GPU 绝对数量,还是新硬件特性的利用程度。

3. 即便不依赖系统层面的进一步改进,我们仍可通过更好算法,让今天的模型在更广泛领域中变得极其有用。事实上,今天的模型已非常有价值了。

当然,前方一定会有技术挑战。但我个人非常欢迎这些挑战,也期待看到研究者和工程师们接下来会给出怎样的答案。从事 AI 与系统研究,从未有过比现在更好的时代,也从未如此令人兴奋。

完整内容,请参阅原始博客。