北京时间12月21日,AI领域的领军人物、OpenAI的联合创始人之一安德烈·卡帕西(Andrej Karpathy)发布了《2025年大语言模型年度回顾》(2025 LLM Year in Review),深度剖析了过去一年大语言模型(LLM)领域的重大变革。
在这份报告中,卡帕西详尽阐述了2025年大语言模型领域发生的底层范式转移。他指出,这一年标志着AI训练哲学从“概率模仿”向“逻辑推理”的跨越,这一转变的核心动力源自可验证奖励强化学习(RLVR)的成熟。
通过在数学、代码等可自动验证奖励的环境中训练大语言模型,模型会自发形成近似于人类“推理”的策略。这种长周期的强化学习已经开始改变传统的预训练模式,成为提升模型能力的新引擎。
除了技术路径的变革,卡帕西还深刻探讨了智能的本质。他用“召唤幽灵”(Summoning Ghosts)而非“进化动物”( Evolving/growing Animals)来比喻当前AI的成长模式,解释了为何当前的大语言模型在尖端领域表现出色,但在基础常识上可能如孩童般脆弱。
此外,卡帕西还讨论了“氛围编程”(Vi be Coding)的兴起、本地化智能体的实用化趋势,以及大语言模型图形界面(LLM GUI)的演进。他强调,尽管行业进步迅速,但人类目前对这一新计算范式潜力的挖掘尚不足10%,未来发展空间依旧广阔。
卡帕西揭示了一个既冷酷又充满希望的现实:我们正站在从“模拟人类智能”向“纯粹机器智能”跨越的临界点上。随着RLVR等技术的普及,2026年的AI竞争将不再局限于算力的军备竞赛,而是转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘。
以下为卡帕西年度回顾全文:
《2025年大语言模型年度回顾》
2025年是大语言模型领域大步跨越且充满变数的一年。以下是我认为值得特别记录、且在某种程度上出人意料的‘范式偏移(Paradigm Shifts)’清单。它们深刻改变了行业景观,并在思维层面带来了极大冲击。
在2025年初,所有实验室的大语言模型生产堆栈基本如下:
长期以来,这一直是训练生产级大语言模型的稳定且经实践验证的方案。而到了2025年,基于可验证奖励的强化学习脱颖而出,成为该技术组合中事实上的核心新阶段。
通过在数学、代码谜题等大量可自动验证奖励的环境中训练大语言模型,模型会自发形成人类视角下近似“推理”的策略。这类策略在以往的技术范式中难以实现,核心原因在于:模型无法预先知晓最优的推理轨迹或问题修复流程,必须通过针对奖励目标的优化,自主探索出有效解法。
2025年,我(且我认为整个行业)开始从直觉上理解大语言模型智能的“形态本质”(the 'shape' of LLM intelligence)。我们面对的并非“逐步进化成长的动物”,而是“被召唤出的幽灵”。
大语言模型技术栈的所有组成部分:神经网络架构、训练数据、训练算法,尤其是优化目标,都与生物智能的演化逻辑截然不同。因此,大语言模型是智能空间中一类全新的实体,若用看待生物的视角解读它们,难免产生认知偏差。
Cursor最引人关注的点(除了其2025年的爆发式增长)在于它清晰揭示了大语言模型应用的一个全新层级。人们开始普遍讨论“某领域的Cursor模式”。
Claude Code(CC)的问世,首次令人信服地展现了大语言模型智能体(Agent)的核心能力。它能够以循环方式串联工具使用与推理过程,完成长时间跨度的问题求解。此外,CC最让我瞩目的特点是其本地化运行模式:直接部署在用户电脑中,可访问本地私有环境、数据与上下文。
在氛围编程时代,编程不再是高训练门槛的专业人士专属技能,而是普通人也能掌握的通用能力。这印证了我此前在《权力归于人民》(Power to the people)中的观点:大语言模型正在逆转技术普及的传统逻辑。
谷歌Gemini Nano Banana是2025年最具突破性、最可能引发范式转移的模型之一。因此,我们将看到基于相似底层逻辑的创新复刻:个人计算、微控制器(认知核心)、互联网(智能体网络)的大语言模型等价形态将逐步涌现。
核心总结: 2025年是大语言模型领域充满惊喜与突破的一年。当前的大语言模型既展现出远超预期的智能水平,也存在令人意外的认知短板。但无论如何,它们已具备极高的实用价值——我认为,即便以当前的能力水平,整个行业对大语言模型潜力的开发仍不足10%。同时,该领域仍有无数创新想法等待探索,从概念层面来看,发展空间依然广阔。
本文由主机测评网于2026-05-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260546859.html