
人工智能是否已触及发展天花板?‘AI进展减速论’在过去一年中成为热议话题。
Transformer论文共同作者、OpenAI首席研究科学家、推理模型核心奠基者Lukasz Kaiser,近日在《Mad》播客中提出了截然不同的视角。
他指出,AI发展非但没有放缓,反而沿着稳定而持续的指数曲线加速前行。外界所感知的‘停滞’,实质上是突破形态的转变——行业正从单纯追求‘大模型’,转向构建更聪明、更具思考能力的智能体系。
在他看来,预训练依然至关重要,但已不是唯一的驱动力。推理模型如同为基础模型叠加了‘第二大脑’,使其具备推导、验证与自我纠错能力,而不仅是预测下一个词。这意味着在同等成本下,模型的能力跃升更为显著,答案的可靠性也更高。
然而,AI的‘智能地形图’依然极不均衡。Lukasz坦言,最强大的模型能够攻克奥林匹克数学难题,却可能在儿童拼图游戏中数不清物体;可以编写出超越专业程序员水平的代码,却仍会误判一张普通照片中的空间关系。
同时,新范式也催生了新的商业现实。面对上亿级用户,成本效率已超越单纯的算力堆叠,模型蒸馏从‘可选项’转变为‘必需品’。能否让轻量级模型复现大模型的智慧,决定了AI技术能否实现真正意义上的普及。
在这场对话中,Lukasz不仅驳斥了‘AI减速论’,更描绘了一个更加精细、聪明、多层推进的未来图景:基础模型持续扩展、推理层不断演化、多模态等待突破,而产品端的效率竞赛才刚刚拉开帷幕。
以下为整理后的访谈全文,敬请阅读~
主持人:今年以来,一种观点认为AI发展正在放缓,预训练触及瓶颈,扩展定律似乎也临近终点。
但就在我们录制本期节目期间,行业迎来了一轮密集的重大发布——GPT-5.1、Codex Max、GPT-5.1 Pro、Gemini Nano Pro以及Grok-4.1等模型几乎同步亮相,这似乎打破了‘AI停滞’的论调。你们这些身处前沿实验室的专家,观察到了哪些外界尚未捕捉到的进展信号?
Lukasz:AI技术的能力提升始终遵循着非常平稳的指数级增长曲线,这是总体趋势。新技术不断涌现,进步来源于新发现、算力提升以及更优的工程实现。
在语言模型领域,Transformer的诞生与推理模型的出现是两大转折点,其发展呈现S型曲线。预训练目前处于S曲线的上段,扩展定律并未失效,损失值随着算力投入呈对数线性下降,Google及其他实验室均已验证这一点。问题在于,你需要投入多少资金,以及相对于收益是否值得。
新兴的推理范式则处于S曲线的下部,在相同成本下能获得更多收益,因为仍有大量发现等待释放。
从ChatGPT 3.5到当前阶段,核心变化在于模型不再仅仅依赖记忆权重来输出答案,而是能够查阅网页、进行推理分析后给出正确回应。
举例来说,旧版本面对‘动物园明天几点开门’这类问题,可能会从记忆库中胡乱编造,或许读到过动物园网站五年前发布的时间,从而提供过时信息。新版本则能够实时访问动物园官网并进行交叉验证。
ChatGPT或Gemini本身已经具备许多尚未被充分认知的能力。你可以拍摄损坏的物品询问如何修理,它会提供指导;给予大学水平的作业,它也能完成。
主持人:我确实赞同这个说法。目前确实存在大量显而易见的改进空间,如同‘低垂的果实’,容易被发现和解决。例如,模型有时会在逻辑上出现前后矛盾,或者调用工具时出错,再就是无法记住过长的对话内容。这些都是行业已经意识到并正在着力修补的问题。
Lukasz:是的,存在大量极其明显需要提升的环节。大部分属于工程层面挑战:实验室基础设施与代码优化。Python代码通常能够运行,但效率低下会影响输出质量;在训练方法上,强化学习比预训练更为复杂、更难驾驭;此外,数据质量也是关键瓶颈。
过去我们使用Common Crawl这类互联网原始数据仓库,需要对海量原始网络数据进行清洗和提炼。如今大型公司都设有专门团队来提升数据质量,但真正提取出优质数据仍然耗时费力。合成数据正在兴起,但如何生成、选用何种模型以及具体的工程实现,每一步的细节都至关重要。
另一方面,多模态能力的发展也面临挑战。当前模型在处理图像和声音方面,远不如处理文本那般成熟。虽然改进方向明确,但要取得实质性突破,可能需要从头开始训练新一代基础模型,这意味着数月时间和巨额资源的投入。
我常思考,这些进步究竟能让模型变得多强大?这或许是一个被低估的问题。
主持人:我想再深入探讨一下推理模型,因为它确实非常新颖。许多人尚未完全理解它与基础模型的区别。你能用最通俗的语言解释一下,两者究竟有何不同吗?
Lukasz:推理模型在给出最终答案前,会在内部进行一番推演,形成一条‘思考链’,并且能够借助搜索这类外部工具来理清思路。这样一来,它就能在思考过程中主动查找信息,为用户提供更可靠的答案。这算是其表面可见的能力。
它更深远的意义在于,模型学习的重点就是‘如何思考’本身,目标是找到更优的推理路径。以往的模型主要依靠预测下一个词来训练,但这种方法对‘推理’不太有效,因为推理步骤无法直接用于计算梯度。
因此,我们现在改用强化学习进行训练。这类似于设定一个奖励目标,让模型反复尝试,探索哪些思考方式更容易获得好结果。这种训练方式比以往更为复杂。
传统训练对数据质量不那么敏感,大体都能运行,但强化学习需要格外细致,需精心调整参数和准备数据。目前一个基础的方法是使用那些能够明确判断对错的数据,例如解决数学题或编写代码,因此它在这些领域表现尤为突出。在其他领域虽有进步,但尚未达到同样惊艳的水平。
如何在多模态上实现推理?我认为这刚刚起步,Gemini能在推理过程中生成图像,这令人兴奋,但仍处于非常初级的阶段。
主持人:当前存在一种普遍看法:预训练与后训练是割裂的,后训练几乎等同于强化学习。但实际上,强化学习在预训练阶段就已参与,只是我们过去的认知并未充分认识到这一点。
Lukasz:在ChatGPT问世之前,预训练模型已然存在,但无法实现真正的对话。ChatGPT的关键突破在于将RLHF应用于预训练模型。RLHF是一种基于人类偏好的强化学习,通过让模型比较不同回答并学习人类更倾向的选项来进行训练。
然而,若RLHF训练过度,模型可能过度‘迎合’,导致其内核显得脆弱。尽管如此,它仍是实现对话能力的核心。
当前趋势转向更大规模的强化学习,虽然数据规模仍不及预训练,但能够构建具备判断正确性或偏好的模型。该方法目前适用于可明确评估的领域,并可结合人类偏好进行更稳定的长期训练,避免评分系统失效。
未来,强化学习有望扩展到更通用的数据与更广泛的领域。问题是:执行某些任务真的需要大量思考吗?或许需要,或许我们需要比当下更多的思考和推理。
主持人:要提升强化学习的泛化能力,关键在于否在于拥有更好的评估方式?例如你们之前推出的跨经济领域评估,测试它在不同场景的表现,这种系统性的衡量是否真的必要?
Lukasz:人们在写作前通常会进行思考,虽然不像解数学题那般严谨,但总会有一个大致的构思。目前模型难以完全模拟这个过程,不过它们已开始尝试。推理能力可以迁移,例如学会查阅网页获取信息后,此策略也能应用于其他任务。但在视觉思考方面,模型的训练还远远不足。
主持人:思维链具体是如何运作的?模型是如何决定生成这些思考步骤的?我们在屏幕上看到的那些中间推理,是模型真实的完整思考过程吗?还是背后隐藏着更复杂、更长的推理链条?
Lukasz:在ChatGPT中你看到的思维链摘要,实际上是另一个模型对完整思考过程的提炼。原始的思考链条通常较为冗长。如果仅仅让模型在预训练后尝试逐步思考,它确实能产生一些推理步骤,但关键不止于此。
我们可以这样训练:先让模型尝试多种思考方式,有些得到正确结果,有些会出错。然后我们选出那些导向正确答案的思考路径,告知模型‘这才是你应该学习的思考方式’。这就是强化学习发挥的作用。
这种训练真正改变了模型的思考模式,在数学和编程领域已经看到成效。更大的希望是它能扩展到其他领域。甚至在数学解题中,模型开始学会提前自我纠正错误,这种自我验证的能力是从强化学习中自然涌现的。本质上,模型学会了质疑自己的输出,当感觉可能出错时就会重新思考。
主持人:谈谈从Google到OpenAI的转变,以及两种文化之间的差异。
Lukasz:Ilya Sutskever 以前在 Google Brain 时是我的经理,后来他离职创立了 OpenAI。那几年他多次询问我是否愿意加入。之后 Transformer 发布,接着又遭遇疫情。Google 完全关闭,重启也非常缓慢。
Google Brain 作为大公司中的小团队,工作氛围与创业公司颇为不同。
Ilya 告诉我,OpenAI 虽处早期阶段,但正在研发语言模型,可能与我的方向契合。我当时想:‘好吧,那就尝试一下。’此前除了 Google 和大学,我未在其他公司工作过。因此加入一家小型创业公司确实是个重大转变。
总体而言,我认为不同科技实验室之间的相似之处,比人们想象得要多。它们之间当然存在差异,但从法国大学的视角来看,大学与任何一个科技实验室的差别,其实远大于实验室彼此之间的差别。大公司与创业公司,在‘必须交付成果’这一点上更为相似。
主持人:OpenAI内部研究团队是如何组织的?
Lukasz:大多数实验室都在进行类似的工作,例如改进多模态模型、提升推理能力、优化预训练或基础设施。通常会有专门团队负责这些方向,人员时有流动,新项目也会启动,比如扩散模型。有些探索性项目规模会扩大,像视频模型就需要更多人手参与。
GPU的分配主要基于技术需求。目前预训练消耗的GPU最多,因此资源会优先分配给它。强化学习和视频模型对GPU的需求也在快速增长。
主持人:未来一两年预训练将如何发展?
Lukasz:我认为预训练在技术上已进入平稳发展期,投入更多算力仍能提升效果,这很有价值。虽然回报不如推理技术显著,但确实能增强模型能力,值得持续投入。
许多人忽略了一个现实转变:几年前OpenAI还只是一个研究实验室,所有算力都集中在训练上,可以毫不犹豫地打造GPT-4。但现在情况不同了,ChatGPT拥有十亿用户,每天产生海量对话需求,需要大量GPU资源支撑。用户不愿为每次对话支付过高费用,这迫使我们开发更经济的小型模型。
这个转变影响了所有实验室。一旦技术产品化,就必须考量成本。如今我们不再仅仅追求最大模型,而是努力用更小、更便宜的模型提供同等质量。这种降本增效的压力非常现实。
这也让蒸馏技术重新受到重视。通过将大模型的知识提炼到小模型中,既能保证质量又能控制成本。虽然该方法早已存在,但直到面临实际的经济压力,我们才真正认识到其价值。
当然,训练超大模型仍然重要,因为它是蒸馏优质小模型的基础。随着行业对GPU的持续投入,预计将迎来新一轮的预训练发展。但本质上,这些变化都是在同一条技术演进路径上的调整,取决于不同阶段的资源与需求。
最重要的是要认识到:预训练始终有效,而且能与强化学习形成互补。在更强大的基础模型上运行推理,效果自然会更加出色。
主持人:现代AI系统的演进,融合了实验室研究、RL及诸多技术。深度学习时代人们常说自己从微观层面理解AI,例如矩阵乘法,但不完全理解组合后的最终行为。过去几年在可解释性方面做了大量工作,尤其是对复杂系统。模型的行为是越来越清晰,还是仍具黑盒特性?
Lukasz:我觉得两方面都有道理。从根本上说,我们对模型的理解确实取得了巨大进步。像ChatGPT这样的模型,它与无数人对话,知识源自整个互联网,显然,我们无法完全理解其内部发生的一切,正如无人能了解整个互联网。
但我们的确有了新发现。例如OpenAI最近一篇论文表明,如果让模型的许多连接变得稀疏、不重要,就能更清晰地追踪它在处理任务时的具体活动。
因此,如果聚焦于模型内部进行研究,我们确实能获得不少理解。现在已有许多研究探索模型内部工作机制,我们对模型高级行为的认知进步显著。不过,这些理解大多源自较小的模型。并非这些规律不适用于大模型,但大模型同时处理海量信息,我们的理解能力终究有限。
主持人:我想聊聊GPT-5.1。从GPT-4到5再到5.1,实际发生了哪些变化?
Lukasz:这个问题很难。从GPT-4到5,最重要的变化是加入了推理能力和合成数据,同时预训练使成本大幅下降。到了GPT-5,它已成为十亿人使用的产品,团队在安全与友好度之间不断调整,让模型面对各类问题时反应更合理,既不过度敏感也不随意拒绝。幻觉问题虽然依旧存在,但通过工具验证和训练优化,已比之前改善许多。
主持人:GPT-5.1主要是后训练的改进,例如加入了不同语气风格,从书呆子气到专业范儿,这大概是回应有些人怀念早期模型那种讨好的特性。加入更多语气变化属于后训练范畴。你们是给模型看示例教它回应方式,这更像监督学习,还是像强化学习那样用对错奖励来训练?
Lukasz:我不直接负责后训练,这部分确实有些特殊,核心是强化学习。例如你会判断‘这个回答是否带有讽刺?是否符合要求?’如果用户要求讽刺,那模型就应该那样回应。
主持人:我感觉强化学习在模型迭代中占比很大。其他公司发布模型时通常与预训练对齐,有时一次预训练产出多个模型。以前版本命名常与技术对齐,例如o1对应预训练版本,o3对应强化学习版本。大家觉得这种命名很混乱。现在改为按能力命名:GPT-5是基础能力版,5.1是增强版,也就是更轻量、稍弱但更快更便宜的版本。
Lukasz:推理模型专注于复杂推理。命名与技术解绑带来了灵活性。OpenAI发展壮大后项目众多,强化学习、预训练,还有网站优化等等。模型蒸馏技术让我们能整合多个项目成果,不必等待所有项目同时完成,可以定期集成更新。这对用户是好事,无需再苦等耗时数月的新预训练模型。
主持人:用户能控制模型的思考时间。那在默认情况下,模型自己是如何决定要思考多久的呢?
Lukasz:模型遇到任务时会自行决定思考时长,但我们可以通过提供额外信息来引导它思考得更深入。现在你确实能对它进行一定控制了。但更根本的变化在于:推理模型通过消耗更多token进行思考,其能力提升的速度远超预训练阶段。如果让GPT-5进行长时间思考,它甚至能解决数学和信息学奥赛的题目,展现出惊人潜力。
然而当前推理训练主要依赖科学领域数据,远不如预训练的数据广泛。这导致模型能力极不均衡,某些方面极其出色,相邻领域却表现欠佳。这种矛盾很常见:例如模型能解奥赛题,却可能做不出一年级的数学题,而人类仅需十秒就能解决。要记住:模型既强大,也存在明显短板。
我举个值得深思的例子。用Gemini看两组点判断奇偶:第一题两边各有若干点,中间共享一个点,正确答案应是奇数。Gemini 3答对了。但紧接着出现结构相似的题目,它却完全忽略了共享点,直接判断为偶数,明明刚见过类似情境。
同样的题目给GPT-5.1,它解出第一题却误判为偶数。如果换成GPT-5 Pro,它会花15分钟运行Python代码来数点,而五岁孩子15秒就能答对。
主持人:所以模型究竟被什么卡住了?
Lukasz:多模态方面确实还处在早期。模型能解出第一个例子说明有进步,但它还未真正掌握如何在多模态情境下进行推理。它虽然能进行上下文学习,却不太会借鉴上下文中的推理思路来推进下一步。这些都是已知的瓶颈,主要还是训练不足。
但更深层的问题是,即使多模态能力提升了,模型可能还是做不好像我女儿做的那种数学题。这类题不纯是视觉问题,模型还没学会在简单的抽象层面运用推理。它看到点阵图,容易卡在识别像素模式上,而看不出‘两边数量相同但共享一个点,所以总数是奇数’这种抽象逻辑。这种从图像到符号的抽象推理能力还没建立起来。
因此这类题目其实暴露了推理模型的一个根本局限:它们还没能把从文本中学到的思维链策略,例如‘先算总数再判奇偶’,自动迁移到视觉输入上。这是多模态推理要突破的核心难题。
另外还有个细节:这些题目对人来说简单,但模型得先从像素里识别出‘点’和‘共享’的概念。如果图像中点的大小、间距、颜色有变化,模型可能根本认不出关键元素。
相比符号明确的数学题,视觉任务的基础识别还不够稳健。因此当模型在第二个例子失败时,很可能是因为它没正确识别出‘共享点’这个视觉信息。这说明多模态推理的瓶颈不仅在于逻辑,还在于跨模态的语义对齐。
儿童早期数学题设计得很巧妙。这些题目看似简单,却融合了抽象、类比、计数和奇偶判断等多个认知环节。模型可能在某一步,比如识别点数正确,却在判断奇偶时出错。我们通过跟踪模型每一步的置信度发现,它在‘识别共享点’这一步的把握度在第二个例子中明显下降,这说明模型对视觉模式的泛化能力还不稳定。这也为我们指明了改进方向:需要在训练中增加更多涉及‘共享元素’和‘集合运算’的视觉推理示例。预计这个具体问题在半年内应该能得到改善。
回到宏观视角,我们讨论的问题,包括多模态推理,都是可解的工程挑战,不是根本性的理论障碍。核心教训是:推理模型的‘锯齿状’能力曲线会在不同领域持续存在,但锯齿的深度会随着训练和蒸馏逐渐减小。
主持人:这次GPT-5.1版本更新,简直像发布了一个Pro产品。你觉得最主要的新能力是什么?
Lukasz:最关键的是对话界面变得更自然了。现在系统能根据你的意图,自动调节回答长短,无需再手动选择短中长回复。这依靠的是后训练中的强化学习,奖励信号不再是简单对错,而是看‘用户满不满意’。他们用大量真实对话训练奖励模型,去捕捉那些微妙的互动指标。这样模型就学会在复杂问题时多讲点,简单问题时少讲点。
这也是RLHF的进化,从学习人类偏好,到学习让人满意。模型还能在生成过程中自我评估信心,如果把握够高,就提前结束回答,节省不少算力。不过这些都属于基础设施优化,不直接提升核心推理能力。真正的进步来自后训练数据质量的提升,特别是加入了更多‘说不知道’和‘反问确认’的边缘案例,让模型变得更谨慎。5.1版本其实只是他们整体推理研究中的一个产品化快照。
主持人:o4-mini的推理能力真的更强吗?还是评估的问题?
Lukasz:很多人问我o4-mini和o3的区别,其实它们不是简单的升级关系,而是不同的设计选择。o3展现了我们在强化学习上追求极致推理能力的成果,而o4-mini更像是一次‘精炼的压缩’,用更少的资源实现接近的效果。关键差别在于‘推理时用的计算量’:o3在回答时投入大量计算,o4-mini则靠训练时更充分的优化。
在实际应用中,o4-mini因为加入了更多通用数据,例如长对话和工具使用,所以在多数日常场景下显得更‘好用’。但遇到真正复杂的逻辑或数学证明,o3依然更强。理想的方式是搭配使用:一般任务用mini,需要深度推理时切换到Pro。
我们还看到一个趋势:‘自主研究’正在模糊训练和推理的边界。模型不仅能回答问题,还能主动设计实验、编写代码、分析结果,甚至生成自己的训练数据,这形成了一个自我提升的循环,也是我们面向2026年的核心方向。
我认为,真正的AGI里程碑,是模型能自主发现新算法,而不只是完成现有任务。这需要强化学习能支持‘探索未知’,而不仅限于可验证的任务。我们内部已有实验让模型在模拟环境中做‘假设-实验’循环,目前能发现一些简单数学定理,虽然还非常初级。但也许某个周一早晨,我们会突然发现它在周末自己证明了新定理,那一刻,可能就是AGI的开端。
主持人:未来6到12个月,什么最让你兴奋?
Lukasz:最让我兴奋的是多模态推理正在成熟。当AI能同时理解图像和语言,就会真正赋能机器人和科研这些领域,它不再只是猜测文字,而是开始在脑子里模拟真实世界的运作逻辑。另一个好消息是推理成本正在快速下降,未来甚至能跑在手机上,让每个人都能拥有真正的个人AI助手。
科学领域可能会最先被颠覆,就像AlphaFold 3和新材料研发那样。语言模型不再只分析数据,而是能主动提出猜想、设计实验、解读结果。我猜想,到2026年底,我们可能会在顶级期刊上看到第一篇由AI提出核心假设、人类主要做验证的论文。那会是个历史性时刻。
当然挑战还很多,关键是让AI学会‘意识到自己不懂什么’,能主动提问而不是盲目自信地胡说,这也是目前强化学习重点在解决的问题。希望下次我们聊到GPT-5.2版本时,它能在这一点上带来惊喜。
主持人:你有什么想对听众说的吗?
Lukasz:AI发展从未停滞,只是方向在变化。如果你感觉跟不上,别担心,没人能完全跟上。最惊人的应用往往来自非技术用户,他们会用我们没预料到的方式使用它。
这些问题未来都会得到改善。更深层的问题在于,多模态等领域会进步,我们也在持续寻找典型案例。虽然技术前沿会变化、某些环节会更顺畅,但关键在于是否会出现全新的挑战。例如,如果工具从三个齿变成四个齿,人们不需要重新学习整个使用方式。
我对泛化能力感到兴奋,认为这是机器学习和智能理解的核心议题。预训练有所不同,因为它主要依靠扩大模型和数据规模来积累知识,而非直接增强泛化。但真正的理解应该能提升泛化能力。
关键问题是:理解本身是否足以实现强大泛化?还是需要更简单的方法?
我认为首要任务是让理解过程变得更简单,这正是我热衷的工作方向。当前模型仍存在局限:它们缺乏物理世界的体验,多模态能力不足,理解机制尚不成熟。
当这些瓶颈突破后,我们将面临更根本的问题:是否需要全新的架构,使得模型无需通过海量数据学习每一个细节,就能自主掌握核心规律?
这个问题的最佳探索方式,是先解决所有相关子问题。就像在浓雾中驾车,你无法预知障碍物的距离。我们正在快速前进,在这个过程中学到很多。核心挑战在于实现小样本学习,像孩子那样举一反三的能力,这是当前最强大的模型也未能达到的。
在推进理论泛化的同时,另一个关键问题是架构创新。除了Transformer,还有许多值得探索的方向。虽然某些小模型在特定测试中表现优异,但整体突破仍需观察。不同研究团队正在推动基础科学进展,这些工作可能不常出现在新闻中,但都至关重要。
计算资源的发展同样关键:更强大的GPU使得运行实验更加可行,促进了研究进步。然而,设计环节仍是主要瓶颈。虽然AI编码助手能帮助实现想法,但让模型执行需要长期反馈的任务,如长达一周的实验流程,仍面临挑战。这涉及到记忆管理问题,通过压缩关键信息来突破上下文限制,但该能力需要专门训练。
另一个重要方向是模型与外部工具的连接。当前模型已能使用网络搜索和Python解释器,但安全地开放系统权限仍是难题。随着模型能力扩展至数学、科学乃至金融领域,人们自然思考:是否存在一个通用模型能处理所有任务?
从产品视角看,我们需要保持技术的人本价值。当前模型仍需精细调优,但进步速度令人鼓舞。以机器翻译为例:虽然GPT-4在多数场景已足够准确,但涉及重要文件时,人们仍倾向于人工翻译,这本质是信任问题。某些工作将继续由人类完成,但这不意味着社会整体效率不会提升。
在前沿研究方向上,我特别关注统一跨领域学习的能力。机器人技术将是多模态能力的重要试金石。当模型真正理解物理世界时,家庭机器人可能带来比聊天机器人更显著的社会影响。
这些突破将深刻改变我们的世界认知。虽然实现路径充满挑战,但我相信我们正在朝着这个方向稳步前进。
本文由主机测评网于2026-01-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260121806.html