当前位置:首页 > 科技资讯 > 正文

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势

我们正在悄然经历一场根本性的AI范式转变,其重要性堪比Transformer的诞生。

其意义与Transformer的问世同等重大。

在过去一年中,关于人工智能的发展,形成了两种对立的看法:

  • 一种观点认为AI增长减速,模型性能已达顶峰,预训练不再有效。
  • 另一种观点则是频繁发布新模型,每隔一段时间就有“AI大版本”问世,例如GPT-5.1Gemini 3Grok 4.1

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第1张

作为Transformer的共同作者,现任OpenAI研究科学家的Łukasz Kaiser近期接受了一次访谈,从内部视角分享了他的见解。

访谈内容丰富,涉及AI底层范式的转型、GPT-5.1命名规则的变迁、未来AI的发展方向,以及Transformer诞生的一些幕后故事。

AI并非发展放缓,而是进入了新的代际。

GPT-5.1并非普通的微小升级,OpenAI内部的版本命名策略已经改变。

多模态推理将成为下一个关键突破口。

AI不会使人类彻底失业。

家用机器人将是继ChatGPT之后最显而易见的AI革命。

接下来,让我们深入了解详细内容:

AI发展并未减速,而是稳步增长

过去一年,关于模型进步放缓的论调此起彼伏,但Łukasz认为这种观点并不正确。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第2张

他的解释十分直接:

从内部视角观察,AI能力的提升是一条极其平滑的指数曲线。

这与摩尔定律相似,几十年来摩尔定律一直有效,甚至在GPU的推动下加速发展,根本原因在于它经历了多代技术的更迭。

因此,从外部看,AI发展平稳;从内部看,其进步依赖于新技术、计算能力的提升以及工程优化的协同效应。

至于为何有人感觉变慢了,原因很简单:AI的底层范式已悄然从预训练转向了推理模型。

这是自Transformer问世以来的又一次关键转折点。

如果用S型曲线描述技术发展(起步、快速增长、平稳期),那么预训练正处于上升后期,而推理模型仍处于起步阶段。

但这并不意味着预训练的Scaling Laws失效,它依然有效,只是相比新的推理范式,需要更多的资金投入。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第3张

因此,出于经济考虑,业内人士普遍将工作重点转向更小、更便宜但质量相当的模型,这也是外界误以为预训练已停止的原因之一。

而推理模型作为新兴范式,其进步速度将非常迅猛。

ChatGPT为例,GPT-3.5直接根据训练数据记忆输出答案,不借助外部工具或推理;而最新的ChatGPT则会主动浏览网页,进行推理分析,然后给出精确答案。

对普通用户而言,若不仔细对比,可能觉得两者差别不大,但实际上背后是性能的质的飞跃。

再如Codex,程序员的工作模式在近几个月已转变为“Codex先行处理,人工随后微调”,这一变化非常彻底,但若非专业编程人员,很难察觉这种根本性变革。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第4张

总的来说,这些变化发生得太快,以至于人们尚未完全察觉。

推理模型的本质与基础大模型相似,区别在于它在给出最终答案前会先进行思考,即所谓的思维链

在思考过程中,模型被允许使用工具,如浏览网页,以提供更准确的答案。其推理过程也被视为模型的一部分并接受训练。

与传统深度神经网络的梯度下降训练不同,推理模型更多地采用强化学习

具体而言,强化学习通过奖励机制引导模型获得更优答案,同时需要研究人员准备更精细的数据以调整强化学习参数。

通过强化学习,模型能够学会自我纠错。

未来行业将进一步转向更复杂的强化学习,例如利用一个大模型评估答案的正确性或偏好,或融入更多人类偏好。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第5张

总之,未来强化学习的应用将更加广泛,不仅限于特定领域,还能处理更多通用数据,如多模态推理。尽管最近Gemini已能在推理过程中生成图像,但整体仍处于起步阶段,相信在强化学习的助力下将进一步提升。

GPT-5.1并非表面上的小版本升级

关于最新发布的GPT-5.1,Łukasz也透露了更多细节。

GPT-5.1看似小版本更新,实际上从内部看是一次重大的稳定性迭代。

首先回顾从GPT-4到GPT-5,简单来说,由于强化学习和合成数据的应用,GPT-5的推理能力显著增强。

而GPT-5.1的改进主要集中在后训练阶段,例如增强安全性、减少幻觉,并增加了书呆子、专业等多种风格选项。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第6张

版本命名不再与技术细节挂钩,而是以用户体验为导向。例如,GPT-5为基础能力较强的模型,GPT-5.1为能力更优版本,Mini为更小、更快、更廉价但性能稍弱的模型,推理模型则专注于复杂任务。

这种命名变化为OpenAI内部带来了更大灵活性,目前强化学习、预训练、幻灯片优化等多个项目并行推进,并通过蒸馏技术将多项目成果整合到一个模型中。

这大幅缩短了模型迭代周期,能更好地满足用户体验需求。因此,GPT-5.1看似小版本更新,实则体现了OpenAI基于用户对模型能力和目标预期的策略调整。

但坦率地说,GPT-5.1在某些能力上仍存在不足。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第7张

例如,Łukasz以自己5岁的女儿为例:

GPT-5.1能轻松解答奥林匹克竞赛题,但在小学一年级的奇偶数问题上却频频出错。

题目内容为:图中有两组点,中间有一个共享点,问总点数是奇数还是偶数。

5岁孩子能在10秒内得出答案(共享点导致总点数为奇数),但GPT-5.1和Gemini 3都自动忽略共享点,误判为偶数。

这主要是因为模型缺乏多模态能力,无法将问题的推理经验迁移到类似场景。因此,后续他们将在训练中强化多模态推理和上下文推理迁移能力。

从谷歌Transformer到OpenAI

作为Transformer的作者之一,Łukasz在访谈中补充了许多诞生细节。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第8张

Łukasz原本是理论计算机科学领域的学者,高中时便对数学和计算机产生浓厚兴趣,并在德国获得理论计算机科学与数学博士学位。

他一直对“思维如何运作”、“智能本质是什么”等问题充满好奇,曾在法国获得终身教职,从事逻辑和编程研究。

直到深度学习兴起,他加入了谷歌。

他先加入Ray Kurzweil团队,后转至Google Brain,开始与Ilya Sutskever等人合作。

在Transformer开发过程中,Łukasz主要负责编码和系统工作,参与了TensorFlow框架的开发。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第9张

有趣的是,据他回忆,Transformer论文的八位共同作者从未在同一物理空间同时出现过。

尽管他们素未谋面,却从不同角度共同构建了这一模型:

有人专注于注意力机制本身,有人研究如何通过前馈网络存储知识,还有人负责解决工程实现问题,比如他自己。

如今,Transformer无疑是AI架构的里程碑,但在当时,很多人不理解用同一模型处理多个任务的想法,普遍认为不同任务应分别训练专用模型。

但他们八人坚信自己的选择,后来的事实证明了他们的正确性。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第10张

关于离开谷歌加入OpenAI,其中一个原因是因为Ilya。

Ilya在谷歌时是Łukasz的直系领导,创办OpenAI后多次邀请他加入。恰好此时Łukasz也难以适应Google Brain团队规模扩大和远程工作氛围,于是双方一拍即合,Łukasz加入了OpenAI。

OpenAI没有让他失望,这里没有严格的组织架构,项目团队自发组成,并根据进展灵活调整,直到项目成熟才逐步扩大。

当然,不同项目间也存在资源竞争,毕竟OpenAI内部GPU资源有限。

从技术层面看,预训练目前消耗GPU资源最多,其次是强化学习和视频模型,资源分配很大程度上由技术需求决定。

因此竞争不可避免,Łukasz本人也不例外。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第11张

下一突破点:多模态推理+具身智能

最后,Łukasz展望了他眼中的AI未来。

AI将改变工作,但不会使工作消失。

因为从产品层面看,即使AI自动化了大部分任务,对人类专家的需求依然存在。

以翻译行业为例,Transformer论文最初的应用场景就是翻译,如今模型能准确翻译西班牙语、法语等,但对于报纸广告乃至ChatGPT UI界面,仍需要人类译者二次审核。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第12张

这本质上是信任问题,即使模型能力再强,对于高风险、高关注度的场景,人们仍倾向于依赖人类专家经验。

只是对于某些基础工作,可替代性将提高,后续工作内容也会相应变化,但归根结底不会让人类无事可干。

Łukasz还预测,家用机器人可能成为“下一次更直观的AI革命”。

Transformer作者Łukasz Kaiser深度访谈:AI范式转换与未来趋势 AI范式转换 推理模型 Transformer 多模态机器人 第13张

机器人技术的进展取决于多模态能力以及通用强化学习、通用推理的进步。一旦这些领域取得突破,机器人技术将迎来爆发式增长。

目前已有许多硅谷公司相继推出智能手遥操作等硬件产品,硬件基础也将迅速成熟,届时将与多模态和物理世界推理能力协同,实现家用机器人的能力跃迁。

这比ChatGPT更直观、更易于感知

参考链接:

[1]https://www.youtube.com/watch?v=3K-R4yVjJfU&t=2637s