当前位置:首页 > 科技资讯 > 正文

2025年大语言模型:智能飞跃与范式转变

北京时间12月21日,AI领域的领军人物、OpenAI的联合创始人之一安德烈·卡帕西(Andrej Karpathy)发布了《2025年大语言模型年度回顾》(2025 LLM Year in Review),深度剖析了过去一年大语言模型(LLM)领域的重大变革。

在这份报告中,卡帕西详尽阐述了2025年大语言模型领域发生的底层范式转移。他指出,这一年标志着AI训练哲学从“概率模仿”向“逻辑推理”的跨越,这一转变的核心动力源自可验证奖励强化学习(RLVR)的成熟。

通过在数学、代码等可自动验证奖励的环境中训练大语言模型,模型会自发形成近似于人类“推理”的策略。这种长周期的强化学习已经开始改变传统的预训练模式,成为提升模型能力的新引擎。

除了技术路径的变革,卡帕西还深刻探讨了智能的本质。他用“召唤幽灵”(Summoning Ghosts)而非“进化动物”( Evolving/growing Animals)来比喻当前AI的成长模式,解释了为何当前的大语言模型在尖端领域表现出色,但在基础常识上可能如孩童般脆弱。

此外,卡帕西还讨论了“氛围编程”(Vi be Coding)的兴起、本地化智能体的实用化趋势,以及大语言模型图形界面(LLM GUI)的演进。他强调,尽管行业进步迅速,但人类目前对这一新计算范式潜力的挖掘尚不足10%,未来发展空间依旧广阔。

卡帕西揭示了一个既冷酷又充满希望的现实:我们正站在从“模拟人类智能”向“纯粹机器智能”跨越的临界点上。随着RLVR等技术的普及,2026年的AI竞争将不再局限于算力的军备竞赛,而是转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘。

以下为卡帕西年度回顾全文:

《2025年大语言模型年度回顾》

2025年是大语言模型领域大步跨越且充满变数的一年。以下是我认为值得特别记录、且在某种程度上出人意料的‘范式偏移(Paradigm Shifts)’清单。它们深刻改变了行业景观,并在思维层面带来了极大冲击。

基于可验证奖励的强化学习(RLVR)

在2025年初,所有实验室的大语言模型生产堆栈基本如下:

  • 预训练(Pretraining, 2020年的GPT-2/3)
  • 监督微调(SFT, 2022年的InstructGPT)
  • 基于人类反馈的强化学习(RLHF, 2022年)

长期以来,这一直是训练生产级大语言模型的稳定且经实践验证的方案。而到了2025年,基于可验证奖励的强化学习脱颖而出,成为该技术组合中事实上的核心新阶段。

通过在数学、代码谜题等大量可自动验证奖励的环境中训练大语言模型,模型会自发形成人类视角下近似“推理”的策略。这类策略在以往的技术范式中难以实现,核心原因在于:模型无法预先知晓最优的推理轨迹或问题修复流程,必须通过针对奖励目标的优化,自主探索出有效解法。

“幽灵”与“动物”之辩

2025年,我(且我认为整个行业)开始从直觉上理解大语言模型智能的“形态本质”(the 'shape' of LLM intelligence)。我们面对的并非“逐步进化成长的动物”,而是“被召唤出的幽灵”。

大语言模型技术栈的所有组成部分:神经网络架构、训练数据、训练算法,尤其是优化目标,都与生物智能的演化逻辑截然不同。因此,大语言模型是智能空间中一类全新的实体,若用看待生物的视角解读它们,难免产生认知偏差。

Cursor与大语言模型应用的新层级

Cursor最引人关注的点(除了其2025年的爆发式增长)在于它清晰揭示了大语言模型应用的一个全新层级。人们开始普遍讨论“某领域的Cursor模式”。

2025年大语言模型:智能飞跃与范式转变 大语言模型  可验证奖励强化学习 AI智能 范式转变 第1张

“栖息”在用户中的“智能体”

Claude Code(CC)的问世,首次令人信服地展现了大语言模型智能体(Agent)的核心能力。它能够以循环方式串联工具使用与推理过程,完成长时间跨度的问题求解。此外,CC最让我瞩目的特点是其本地化运行模式:直接部署在用户电脑中,可访问本地私有环境、数据与上下文。

彻底改造软件开发的氛围编程

在氛围编程时代,编程不再是高训练门槛的专业人士专属技能,而是普通人也能掌握的通用能力。这印证了我此前在《权力归于人民》(Power to the people)中的观点:大语言模型正在逆转技术普及的传统逻辑。

大语言模型交互雏形初现

谷歌Gemini Nano Banana是2025年最具突破性、最可能引发范式转移的模型之一。因此,我们将看到基于相似底层逻辑的创新复刻:个人计算、微控制器(认知核心)、互联网(智能体网络)的大语言模型等价形态将逐步涌现。

核心总结: 2025年是大语言模型领域充满惊喜与突破的一年。当前的大语言模型既展现出远超预期的智能水平,也存在令人意外的认知短板。但无论如何,它们已具备极高的实用价值——我认为,即便以当前的能力水平,整个行业对大语言模型潜力的开发仍不足10%。同时,该领域仍有无数创新想法等待探索,从概念层面来看,发展空间依然广阔。