我们正经历一场悄然却根本性的AI范式变革。
其重要性不亚于Transformer架构的诞生。
在过去一年中,关于人工智能进展,出现了两种观点的分歧:
作为Transformer的联合作者之一,现任OpenAI研究科学家的Łukasz Kaiser近期接受采访,提供了内部视角的解答。
AI并非速度下降,而是正在进行代际升级。
GPT-5.1不是简单的小版本更新,OpenAI内部版本命名规则已经改变。
多模态推理将成为下一个关键突破。
AI不会使人类完全失业。
家用机器人将是继ChatGPT之后最明显的AI革命。
下面我们来详细了解具体内容:
过去一年里,“模型进步减缓”的说法屡见不鲜,但Łukasz认为这种观点是错误的。
他给出的解释非常直接:
从内部视角观察,AI的能力增长是一条极其平滑的指数曲线。
这类似于摩尔定律,几十年来摩尔定律一直有效,甚至在GPU的推动下还在加速,根本原因在于它经历了多代技术的迭代。
因此,从外部看,AI趋势是平稳的;而从内部看,其进步也依赖于新技术、计算能力的提升和工程优化的共同作用。
至于为什么有人感觉“变慢了”,原因很简单:AI的底层范式,已经悄然从预训练转向推理模型。
这也是继Transformer出现后的又一次重要转折。
如果把技术发展描述为一条S型曲线(起步→快速增长→平稳期),那么预训练就处于S曲线的上升后期,而推理模型仍处于初期。
但这并不意味着预训练的Scaling Laws就失效了,它仍在发挥作用,只是与新的推理范式相比,需要投入更多资金。
因此出于经济考虑,行业普遍将重心转向更小、更便宜但质量相当的模型,这也导致外界认为预训练已经停滞。
那么回到推理模型,由于该范式还处于新兴阶段,进步速度会非常快。
以ChatGPT为例,GPT-3.5会直接基于训练数据记忆给出答案,而不借助任何外部工具和推理,而最新的ChatGPT会主动浏览网站、进行推理分析,再提供准确答案。
对于普通用户,如果不仔细对比,可能觉得二者差异不大,但实际上背后是性能的质的飞跃。
又比如Codex,程序员的工作方式在近几个月已转变为“Codex先处理,然后人工微调”的模式,这种变化相当彻底,但非专业编程人员可能不会注意到这种根本性变革。
总的来说,这些变化发生得太快,以至于人们还未完全察觉。
而推理模型的本质也与基础大模型类似,只是在给出最终答案前,会先进行思考,即所谓的思维链。
在思考过程中,模型被允许使用工具,例如浏览网页,以提供更准确的答案。其推理过程也会被视为模型的一部分并接受训练。
相比于传统的深度神经网络梯度下降训练,推理模型则更多使用强化学习。
具体来说,强化学习通过奖励机制推动模型获取更好的答案,也需要研究人员提供更细致的数据准备,以完成强化学习的参数调整。
然后通过强化学习,模型就能学会对自身错误的纠正。
后续行业也会继续转向更复杂的强化学习,例如借助一个大模型来判断答案的正确性或偏好度,或者融入更多的人类偏好。
总之,未来强化学习的应用范围会更加广泛,不仅限于特定领域,还能处理更多通用数据,例如多模态推理,虽然最近Gemini已经能够在推理过程中生成图像,但整体还处于起步阶段,相信在强化学习的帮助下会有进一步突破。
关于最新发布的GPT-5.1,Łukasz也透露了更多细节。
GPT-5.1看起来只是小版本迭代,实际从内部来讲,是一个巨大的稳定性迭代。
首先回顾从GPT-4到GPT-5,简而言之,得益于强化学习和合成数据的应用,GPT-5的推理能力显著提升。
而GPT-5.1的改进,则更多集中在后训练阶段,比如增加安全性、减少幻觉,以及添加了如书呆子、专业等多种风格选择。
版本的命名方式也不再与技术细节挂钩,转而以用户体验为导向,比如GPT-5是基础能力较强的模型,GPT-5.1是能力更优的版本,Mini是更小、更快、更廉价但性能稍弱的模型,推理模型则专注于复杂任务。
这种命名方式的转变也为OpenAI内部带来了更多灵活性,现在强化学习、预训练、幻灯片优化等多个项目并行工作,然后通过蒸馏技术就能将多项目成果整合到一个模型中。
这大大缩短了模型迭代时间,可以更好地满足用户体验需求,所以GPT-5.1看似是小版本更新,实则背后是OpenAI基于用户对其能力和目标预期做出的策略调整。
不过坦白地讲,GPT-5.1在部分能力上仍然存在短板。
例如Łukasz用他5岁的女儿举例——
GPT-5.1能够轻松解决奥林匹克竞赛题,但在面对小学一年级的数奇偶数题目时却错误频出。
该题目内容是,图中有两组点,中间有一个共享点,问总点数是奇数还是偶数。
5岁的孩子能在10秒内算出答案(因为共享点的存在导致总点数为奇数),但无论GPT-5.1还是Gemini 3都会自动忽略这个共享点,误判为偶数。
这主要还是因为模型缺乏足够的多模态能力,也未能将一个问题的推理经验迁移到相似场景中,所以后续他们将会在训练中进一步强化多模态推理和上下文推理迁移能力。
作为Transformer的作者之一,Łukasz也在访谈中补充了许多诞生细节。
Łukasz原本是一名专注于理论计算机科学的学者,高中时就对数学和计算机充满兴趣,并在德国获得了理论计算机科学与数学博士学位。
他一直对“思维是如何运作的”、“智能的本质是什么”这类问题充满好奇,也曾在法国获得终身教职,从事逻辑和编程研究。
直到深度学习兴起,他加入了谷歌。
先是成为Ray Kurzweil团队的一员,后转至Google Brain,开始与Ilya Sutskever等人合作。
在开发Transformer的过程中,Łukasz主要负责编码和系统工作,参与TensorFlow框架的开发。
但有趣的是,据他回忆,Transformer论文的八位共同作者从未在同一个物理房间中共同出现过。
而虽然他们彼此之间素未谋面,但他们通过不同角度共同构建了这个模型:
有人专注于注意力机制本身,有人研究如何通过前馈网络存储知识,还有人负责解决工程实现问题,比如他自己。
从现在的角度看,Transformer毫无疑问是当今AI架构的里程碑,但在当时,很多人对用同一个模型处理多个任务的想法并不理解,他们普遍认为不同任务就应该分别训练不同的专有模型。
而他们八个人坚信自己的选择,后来的事实也证实了他们的想法是正确的。
关于离开谷歌,转投OpenAI,其中一个原因还是因为Ilya。
Ilya在谷歌时期就是Łukasz的直系领导,在创办OpenAI后也屡次邀请他加入。刚好这时,Łukasz也无法适应Google Brain的团队规模扩大以及远程工作氛围,于是一拍即合,来到了OpenAI。
OpenAI也没有让他失望,这里没有严格的组织架构,都是根据项目自发组队,也会根据项目进展灵活调整,直到项目成熟才会逐步扩大团队。
当然不同项目之间也会存在资源竞争,毕竟OpenAI内部GPU资源有限。
从技术层面看,预训练目前消耗的GPU资源最多,其次是强化学习和视频模型,资源分配在很大程度上还是由技术需求决定。
所以竞争不可避免,Łukasz本人也不例外。
最后,Łukasz谈了他眼中的AI未来。
AI会改变工作,但不会让工作消失。
因为从产品层面上看,即使AI自动化了绝大部分任务,但人类专家的需求仍然存在。
以翻译行业为例,其实Transformer论文最初的应用场景就是翻译,现在的模型也能准确翻译西班牙语、法语等语言,但对于报纸广告乃至ChatGPT UI界面,仍然需要人类译者进行二次审核。
这本质上是信任问题,即使模型能力再强,对于一些高风险、高关注度的场景,还是会倾向于依赖人类专家经验。
只是说,对于另外一些基础工作,可替代性会变高,后续也会出现相应的工作内容变化,但归根结底不会让人类无事可做。
Łukasz还预计,家用机器人可能会成为“下一次更为直观的AI革命”。
机器人技术的进展,取决于多模态能力和通用强化学习、通用推理的进步。一旦这些领域取得突破,机器人技术必将迎来爆发式增长。
目前已经有很多硅谷公司在相继推出智能手遥操作等硬件产品,硬件基础也将迅速成熟,届时将协同多模态和物理世界推理能力,实现家用机器人的能力跃迁。
这将会比ChatGPT更直观、更易感知。
[1]https://www.youtube.com/watch?v=3K-R4yVjJfU&t=2637s
本文由主机测评网于2026-01-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260121829.html