当前位置:首页 > 科技资讯 > 正文

AI战略转折:从算力扩展迈向研究创新的新时代

AI战略转折:从算力扩展迈向研究创新的新时代 扩展时代 研究时代 模型泛化 持续学习 第1张

数以万亿美元计的赌注已然落地,人工智能领域正迎来前所未有的投资热潮。

Gartner预测显示,仅2025年全球AI支出就将逼近1.5万亿美元,2026年有望突破2万亿美元大关;英伟达CEO黄仁勋则认为,未来十年AI基础设施投入可能高达3万亿至4万亿美元,堪称一场新工业革命。

全球范围内,企业竞相争夺GPU、扩建数据中心、拓展电网容量。核心问题似乎只剩下:算力堆叠还能持续多久?

前OpenAI首席科学家、Safe Superintelligence Inc.(SSI)创始人Ilya Sutskever在2025年11月25日的《Dwarkesh Podcast》播客中,提出了截然不同的见解:

我们正从扩展时代过渡到研究时代(扩展的时代已终结,研究的时代正开启)。

提出这一观点的人,正是早期将算力假说推向巅峰的关键人物之一。2024年离开OpenAI后,他创立了SSI,这家公司专注于单一使命:构建安全的超级智能。

在不到一年时间里,SSI以320亿美元估值完成了30亿美元融资,彰显了市场对其方向的认可。

在这场90分钟的深度访谈中,Ilya阐述了三个核心判断:

当前大模型的迁移能力远逊于人类;

持续投入参数、数据和算力的边际收益正急剧下降;

未来行业差距的核心不再是资源多寡,而是研究方法的高下。

当“堆算力”的时代让位于“做研究”的时代,AI行业的底层逻辑正在被重新书写。

第一节|堆算力的时代,快结束了

Ilya开篇即断言:

我们正从扩展时代,进入研究时代。

扩展时代指的是通过放大参数、算力和数据三要素来持续提升模型能力。OpenAI、Anthropic、Google DeepMind等领先实验室曾沿用这一方法,并取得了一定成效。

但Ilya认为,这一时代已临近顶峰。

“扩展已成为行业共识:采购更多GPU、建设更庞大数据中心、训练更巨型模型。只要方法论不变,谁行动迅速、预算充足,谁就能占据先机。”

然而,这导致的不再是创新突破,而是资源上的军备竞赛。

Ilya本人曾是扩展路线的坚定倡导者,他主导的GPT-2、GPT-3便是扩展范式的典型代表。但他如今指出:单纯堆叠参数已触及瓶颈。

SSI押注于一个技术方向:未来超级智能的差距,将取决于谁找到了新的训练方法,而非谁拥有更多GPU。

AI竞争不再是谁投入更多谁获胜,而是谁率先实现方向性突破。

他更直言不讳:

“当前模型在评测分数上表现优异,但实际创造的经济价值却相当有限。它们看似能力强大,一旦投入实际工作,问题便暴露无遗。”

表面能力出众,实则仅是基准测试上的亮点;看似差距微小,实际部署时却漏洞百出。

边际收益递减、能力与表现脱节,根源在于:算力和参数虽仍重要,却不再是模型的决定性因素。

接下来,我们将探讨:Ilya所指的研究时代究竟意味着什么?

第二节|模型会考试,但不会干活

为何基准测试表现良好,实际应用却问题重重?Ilya给出的答案是:模型的泛化能力存在缺陷。

“它一方面能撰写论文、解决数学难题,另一方面却可能将同一句话重复两遍。”

这并非孤立错误,而是系统性短板:模型擅长考试,却不代表真正理解。问题不仅源于模型本身,也涉及训练者。

Ilya在访谈中提到一个现象:

“我们训练模型的方式过于依赖评测基准。研究团队为追求高分,专门设计强化学习环境来优化排名。”

训练资源过度集中于少量任务,如竞技编程或标准化答题。模型确实变得更强大,但也更趋近于刷题机器,仅精通特定领域。

他甚至指出:

真正的奖励黑客并非模型,而是刷榜的人类研究员。

他用两名学生类比:

  • 学生A:练习一万小时竞技编程,刷遍所有题目,排名顶尖;
  • 学生B:仅练习一百小时,但对问题本质有自成体系的理解。

“谁将在真实职业中表现更出色?无疑是后者。因为他未死记硬背,而是抓住了问题核心。而当今大模型,大多类似于前者。”

当前模型缺乏的不是能力,而是判断哪些知识值得学习的能力

Ilya并未否定大模型的知识储备:在数学、语言、编程等领域,它们甚至超越普通人。但它们学习速度更慢,应对新情境时更易出错。人类能凭直觉评估自身理解程度,而模型无法做到。

他深入探讨了训练方法的问题:

  1. 预训练:数据全量输入,无需筛选,导致知识泛而不精;
  2. 强化学习(RL):人类设定任务和奖励,模型按目标优化,但易过度拟合奖励机制;
  3. 泛化能力:能否执行未训练任务?能否迁移既有知识?能否自我纠错?

模型只会考试、不懂应用的根源,在于训练过程未能教会其举一反三。

因此,AI的新突破点在于:并非谁的模型能力更强,而是谁的训练方法能真正赋予模型泛化能力,使其学会将知识应用于新场景。

这不需要增加强化学习环境或刷题数量,而是重构训练策略本身。

第三节|为什么现在的训练方法不行

第二节探讨了泛化问题,但为何它如此棘手?

Ilya的答案是:问题不在于资源不足,而在于训练方法存在根本性局限。预训练的困境在于:见识广博,但理解肤浅。

这并未否定预训练的价值。

Ilya明确指出了预训练的两大优势:

数据全面、规模庞大,能覆盖多样行为;

无需手动筛选,训练流程自动化程度高。

但他也揭示了预训练的根本缺陷:它类似人类前15年的经验积累,但人类学得更少却理解更深。

人类早已避免模型所犯的低级错误。预训练让模型接触上万个编程案例,却无法自主总结何时使用递归或循环。它只是在模仿,而非真正推理。

强化学习试图让模型掌握目标导向行为,却引发新困境:研究团队必须手动设计任务、定义奖励。这导致两个问题:

一是模型仅学会特定任务,而非学会如何学习;

二是模型过度优化奖励函数,丧失对任务本质的理解。

Ilya强调了一个关键缺失:“价值函数”

人类学习时拥有对表现好坏的直觉判断,这使我们能自我纠错、迁移经验。但现有强化学习方法无法赋予模型这种能力。

Ilya用一个场景总结了当前方法的局限:

“你让模型修复bug,它回应:‘你说得对,我马上修正。’修复后,它引入另一个bug。你指出后,它说:‘你又对了。’然后,它竟重新引入了第一个bug。”

这不是模型不够聪明,而是它缺乏判断机制。

它不知道自己是否真正理解或仅是侥幸正确,不清楚方向是否值得继续,也不懂如何评估自身推理过程。

预训练和强化学习均属“离线学习”:训练阶段完成全部学习,随后模型定型部署。这导致模型仅能对已知问题表现优异,一旦进入未知场景,行为便难以预测。

更重要的是,这种范式无法让模型掌握关键能力:判断哪些知识值得学习、何时学习正确、如何迁移既有知识。

这正是为何继续扩大参数规模、数据规模或算力规模无法解决根本问题。

你可以让模型更庞大,但如果训练方法不变,它永远只是一台精密答题器,而非真正的学习者。

第四节|Ilya 的新答案:让模型持续学习

如果说前三节讨论了扩展逻辑的收益递减,那么Ilya在此次访谈中真正传达的,是一个更深层的转向信号:

AI安全并非产品上线前才考虑的问题,而是从决定如何训练模型的那一刻就已开始。

训练方法本身,决定了模型在未知场景下是否安全可靠。

许多人认为安全问题意味着模型需遵守规则或不撒谎。

但Ilya的判断是:对齐问题本质是泛化能力不足。当模型进入真实世界,它无法理解哪些行为被允许,哪些不应尝试。

并非模型恶意才会作恶,而是它未能理解上下文;

并非人类未设定好奖励,而是模型根本未学会判断长期影响。

这使得对齐问题转化为更基础的议题:你究竟教会了模型什么?它如何知道自己已学会?它如何推理未知任务?

如果模型仅记忆答案,那便是潜在风险;但如果它能掌握推理原则,则更接近理解边界的人类。

Ilya在访谈中明确表示,他不再相信一次性预训练的思路:

人类不同于AGI。我们依赖的是持续学习。

真正的智能体,并非在训练阶段完成学习,而是在部署后持续学习。

他用比喻解释:你可以训练出一个极其聪明的15岁少年,但他一无所长。真正能力来自于他随后如何步入社会、吸收反馈、逐步获取技能。

这不仅是能力问题,更是安全问题。因为这能避免模型在未知情况下失控。

Ilya清楚认识到,扩展方法已无法支持持续学习:

预训练是固定学习阶段,无法实时适应;

强化学习过度依赖奖励设计,易被过度优化;

评测机制倾向于结果美观,忽视过程合理性。

因此,他强调:我们需要新方法,能在学习过程中持续校准模型的推理能力。真正突破并非更大模型,而是具备自我评估能力的模型。

这不仅是训练策略的调整,更是范式转换:

  • 从离线预训练转向部署中的在线学习;
  • 从单向优化目标转向交互式多轮反馈;
  • 从封闭数据集转向开放世界动态任务;
  • 从对齐评测转向对齐过程本身。

他还提出,若能设计一种结构,使模型拥有类似人类情感中枢的机制,那可能才是构建可信超级智能的有效路径。

Ilya举例说明:

“为何今日Linux更安全?并非因我们初始考虑周全,而是因它被部署于真实世界,经历使用、攻击与修补。”

他认为,AGI也须经历类似过程:逐步部署、获取真实反馈、保持结构可控、机制透明,而非闭门造车后发布黑盒模型。

正因如此,他创立SSI,专注一事:构建可持续学习、对齐人类、能逐步部署的超级智能。不做应用,不做工具,产品即智能本身。

安全并非合规口号,而是一种训练哲学。

从首行代码开始,从首个训练样本开始,就在决定模型未来走向。

这也意味着,真正的AI差距正从资源规模转向方法创新。

结语|研究回归:一个技术转折点的到来

在90分钟访谈中,Ilya立场鲜明:

扩展收益正递减,研究能力成为拉开差距的关键。

相应评估体系也在转变。模型能力提升不再依赖参数规模的简单扩大;预训练阶段无法独立解决模型“举一反三”的泛化问题;持续学习成为安全保障的必要条件。“对齐”不再是产品上线前的检查工序,而是贯穿整个训练过程。

计算GPU成本、分析投资回报率、追逐基准测试排名这套扩展时代逻辑正逐渐失效。问题不在于多投入算力能否更强,而在于这条路本身是否仍可行。

安全的超级智能不仅存在于论文与共识中,它是技术路径、组织结构与商业逻辑协同的结果。

这一转折点已然到来。谁能把握机遇,尚未可知。

📮 参考资料:

https://www.youtube.com/watch?v=aR20FWCCjAs

https://x.com/dwarkesh_sp/status/1993371363026125147

https://www.gartner.com/en/newsroom/press-releases/2025-09-17-gartner-says-worldwide-ai-spending-will-total-1-point-5-trillion-in-2025

https://ssi.inc/

https://www.reuters.com/technology/artificial-intelligence/openai-co-founder-sutskevers-new-safety-focused-ai-startup-ssi-raises-1-billion-2024-09-04/

https://www.dwarkesh.com/