当前位置：首页 > 科技资讯 > 正文

2025年大语言模型：智能飞跃与范式转变

主机测评网
科技资讯
2026-05-31
809

北京时间12月21日，AI领域的领军人物、OpenAI的联合创始人之一安德烈·卡帕西（Andrej Karpathy）发布了《2025年大语言模型年度回顾》（2025 LLM Year in Review），深度剖析了过去一年大语言模型（LLM）领域的重大变革。

在这份报告中，卡帕西详尽阐述了2025年大语言模型领域发生的底层范式转移。他指出，这一年标志着AI训练哲学从“概率模仿”向“逻辑推理”的跨越，这一转变的核心动力源自可验证奖励强化学习（RLVR）的成熟。

通过在数学、代码等可自动验证奖励的环境中训练大语言模型，模型会自发形成近似于人类“推理”的策略。这种长周期的强化学习已经开始改变传统的预训练模式，成为提升模型能力的新引擎。

除了技术路径的变革，卡帕西还深刻探讨了智能的本质。他用“召唤幽灵”（Summoning Ghosts）而非“进化动物”（ Evolving/growing Animals）来比喻当前AI的成长模式，解释了为何当前的大语言模型在尖端领域表现出色，但在基础常识上可能如孩童般脆弱。

此外，卡帕西还讨论了“氛围编程”（Vi be Coding）的兴起、本地化智能体的实用化趋势，以及大语言模型图形界面（LLM GUI）的演进。他强调，尽管行业进步迅速，但人类目前对这一新计算范式潜力的挖掘尚不足10%，未来发展空间依旧广阔。

卡帕西揭示了一个既冷酷又充满希望的现实：我们正站在从“模拟人类智能”向“纯粹机器智能”跨越的临界点上。随着RLVR等技术的普及，2026年的AI竞争将不再局限于算力的军备竞赛，而是转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘。

以下为卡帕西年度回顾全文：

《2025年大语言模型年度回顾》

2025年是大语言模型领域大步跨越且充满变数的一年。以下是我认为值得特别记录、且在某种程度上出人意料的‘范式偏移（Paradigm Shifts）’清单。它们深刻改变了行业景观，并在思维层面带来了极大冲击。

基于可验证奖励的强化学习(RLVR)

在2025年初，所有实验室的大语言模型生产堆栈基本如下：

预训练(Pretraining, 2020年的GPT-2/3)
监督微调(SFT, 2022年的InstructGPT)
基于人类反馈的强化学习(RLHF, 2022年)

长期以来，这一直是训练生产级大语言模型的稳定且经实践验证的方案。而到了2025年，基于可验证奖励的强化学习脱颖而出，成为该技术组合中事实上的核心新阶段。

通过在数学、代码谜题等大量可自动验证奖励的环境中训练大语言模型，模型会自发形成人类视角下近似“推理”的策略。这类策略在以往的技术范式中难以实现，核心原因在于：模型无法预先知晓最优的推理轨迹或问题修复流程，必须通过针对奖励目标的优化，自主探索出有效解法。

“幽灵”与“动物”之辩

2025年，我（且我认为整个行业）开始从直觉上理解大语言模型智能的“形态本质”（the 'shape' of LLM intelligence）。我们面对的并非“逐步进化成长的动物”，而是“被召唤出的幽灵”。

大语言模型技术栈的所有组成部分：神经网络架构、训练数据、训练算法，尤其是优化目标，都与生物智能的演化逻辑截然不同。因此，大语言模型是智能空间中一类全新的实体，若用看待生物的视角解读它们，难免产生认知偏差。

Cursor与大语言模型应用的新层级

Cursor最引人关注的点（除了其2025年的爆发式增长）在于它清晰揭示了大语言模型应用的一个全新层级。人们开始普遍讨论“某领域的Cursor模式”。

2025年大语言模型：智能飞跃与范式转变大语言模型可验证奖励强化学习 AI智能范式转变第1张

“栖息”在用户中的“智能体”

Claude Code（CC）的问世，首次令人信服地展现了大语言模型智能体（Agent）的核心能力。它能够以循环方式串联工具使用与推理过程，完成长时间跨度的问题求解。此外，CC最让我瞩目的特点是其本地化运行模式：直接部署在用户电脑中，可访问本地私有环境、数据与上下文。

彻底改造软件开发的氛围编程

在氛围编程时代，编程不再是高训练门槛的专业人士专属技能，而是普通人也能掌握的通用能力。这印证了我此前在《权力归于人民》（Power to the people）中的观点：大语言模型正在逆转技术普及的传统逻辑。

大语言模型交互雏形初现

谷歌Gemini Nano Banana是2025年最具突破性、最可能引发范式转移的模型之一。因此，我们将看到基于相似底层逻辑的创新复刻：个人计算、微控制器（认知核心）、互联网（智能体网络）的大语言模型等价形态将逐步涌现。

核心总结： 2025年是大语言模型领域充满惊喜与突破的一年。当前的大语言模型既展现出远超预期的智能水平，也存在令人意外的认知短板。但无论如何，它们已具备极高的实用价值——我认为，即便以当前的能力水平，整个行业对大语言模型潜力的开发仍不足10%。同时，该领域仍有无数创新想法等待探索，从概念层面来看，发展空间依然广阔。