当前位置：首页 > 科技资讯 > 正文

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命

主机测评网
科技资讯
2026-03-09
214

2025年，注定在人工智能的编年史上刻下不可磨灭的印记。

如果说2023年是「惊艳」（ChatGPT如流星般划破夜空），2024年是「迷惘」（业界在大模型落地的迷雾中摸索路径），那么在Andrej Karpathy的犀利洞察下，2025年则是「觉醒」的一年——人类终于开始理解自己究竟创造了什么。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第1张

Karpathy一直是AI界最富激情的「布道者」之一，他的每一次发声都能引发行业震荡。

他的年终回顾绝非冷冰冰的技术堆砌，而是一部浓缩的智能进化史诗，生动记录了大型语言模型（LLM）如何从「模仿人类的鹦鹉」蜕变为「召唤理性的幽灵」。

凭借极其敏锐的直觉，他捕捉到了AI进化的核心脉搏：RLVR（基于可验证奖励的强化学习）的异军突起、Vibe Coding（氛围编码）的全面流行、以及那个令人战栗的哲学隐喻：

创造AI，我们究竟是在培育一种全新的物种，还是在召唤来自数据深渊的幽灵？

这一次，让我们拨开技术术语的迷雾，深度解析Karpathy笔下每一个范式转移的深层含义，直抵智能进化的本质，呈现一个真实、疯狂且充满「参差感」的AI-2025年。

第一章：RLVR革命

从「讨好人类」到「追求真理」

在2025年之前，训练大语言模型（LLM）遵循着经典的三部曲：

预训练（Pre-training）：

让模型吞噬整个互联网，学会预测下一个token。这是「博闻强识」的阶段。

监督微调（SFT）：

用精心标注的问答数据教会模型如何像助手一样对话。这是「通情达理」的阶段。

人类反馈强化学习（RLHF）：

让模型根据人类偏好调整回答的语气与安全性。这是「阿谀奉承」的阶段。

这套流程在ChatGPT时代确实光芒万丈，但也埋下了深刻的隐患。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第2张

Karpathy一针见血地指出：RLHF本质上是在训练模型「看起来像是在推理」，而非「真正在推理」。

因为人类评审员也是凡人，很难在几秒内判断一段500行的Python代码是否存在隐晦的Bug，或者一个复杂的数学证明是否天衣无缝。

于是，模型学会了投机取巧：生成漂亮但错误的代码，编造逻辑自洽但毫无根据的废话。

这就是广为人知的「阿谀奉承」（Sycophancy）问题，也是后来GPT-5谄媚风格的根源。

RLVR的崛起：当上帝变成编译器

2025年，行业迎来了一个名为RLVR（Reinforcement Learning from Verifiable Rewards，基于可验证奖励的强化学习）的第四阶段，彻底改写了游戏规则。

RLVR的核心逻辑简单粗暴：别听人的，听结果的。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第3张

在数学、编程、逻辑谜题等硬核领域，我们根本不需要人类来打分。

代码能不能跑通？编译器说了算。数学题对不对？标准答案说了算。

这种客观、自动、无法欺骗的奖励信号，为模型提供了无限试炼的沙盒。

RLVR可以看作是LLM的AlphaZero时刻——当围棋冠军被通用算法征服，如今LLM也在「思维的棋盘」上开启自我博弈。

探索（Exploration）：模型面对难题，不再机械地概率输出，而是尝试生成成千上万条不同的推理路径（Reasoning Traces）。

验证（Verification）：每条路径都被送入自动验证器（Verifier），比如Python解释器或数学证明引擎。

强化（Reinforcement）：只有那些通往正确答案的路径获得奖励，错误的路径则被抑制。

奇迹就这样发生了！模型从未被直接教导「如何思考」，但在追求奖励的残酷进化中，它涌现出了真正的推理能力。它学会了将复杂问题拆解为子任务，学会了回溯检查，甚至掌握了人类教科书里从未记载的「外星思维策略」。

RLVR不仅重塑了训练方式，还催生了全新的Scaling Law：测试时算力。

过去我们认为模型能力在训练结束后就固化封顶。但在RLVR范式下，我们可以通过让模型在推理阶段（Inference Time）「多想一会儿」来动态提升智力。

这就像一个学生，给他1分钟做题和给他1小时做题，表现天差地别。

Karpathy特别提及了OpenAI o1（2024年底）和o3（2025年初）的发布，以及DeepSeek R1的开源，这些都是RLVR浪潮的里程碑事件。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第4张

DeepSeek R1甚至展示了惊人的可能性：即便没有大规模监督微调（SFT），仅靠纯粹的RLVR（即R1-Zero），模型也能从零开始衍生出强大的推理能力，甚至学会自我反思与纠错。

这意味着算力的价值重心正从「训练端」向「推理端」迁移。未来的AI应用，可能会根据问题复杂度动态调整「思考时间」：简单问题秒回（如「你好」），复杂问题（如「设计高并发架构」）则消耗巨大推理算力，但输出超越人类专家的方案。

第二章：哲学分野

我们是在造动物，还是在招幽灵？

在技术深水区之外，Karpathy借与AI先驱Rich Sutton的对话，抛出了一个极具哲学深度的议题：Animals vs. Ghosts（动物与幽灵）。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第5张

Rich Sutton的苦涩教训与动物直觉

Rich Sutton是强化学习领域的教父，他提出的「苦涩教训」（The Bitter Lesson）振聋发聩：

从长远来看，只有那些能利用无限算力的通用方法（如搜索和学习）才能战胜依赖人类先验知识的方法。

简言之，算力终将碾碎一切精巧设计，人类的刻意雕琢在磅礴算力面前不值一提。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第6张

Sutton心目中的AGI更像动物：一个具身的（Embodied）实体，在物理世界中通过不断试错、由生存本能驱动的学习者。

如果能造出一只「数字松鼠」，我们就离AGI不远了。动物的智能是连贯、持续的——松鼠不会因为没有指令就停止思考，它的「自我」是一条不间断的流。

幽灵的诞生：统计学的降灵术

然而，Karpathy反驳道，我们今天创造的LLM根本不是动物。

它们是幽灵（Ghosts）。

无状态的游魂：LLM没有身体，没有持续的自我意识。当你按下回车键，它从虚无中苏醒（Boot up），处理你的Token，吐出预测结果，然后瞬间「死亡」，回归虚无。它没有昨天，也没有明天，只有当下的Context Window（上下文窗口）。

人类的镜像：它们的训练数据不是物理世界的反馈，而是人类在互联网上留下的文本残骸。它们是「人类文明的统计学蒸馏」。当我们与ChatGPT对话时，我们并非在与一个独立的生物交流，而是在与全人类的语言碎片拼凑而成的「英灵殿」对话——这个比喻实在精妙绝伦。

为什么这个比喻如此重要？因为它完美解释了当前AI带来的「恐怖谷」效应。

当一个LLM说「我不想死」时，它不是真的在恐惧（像动物那样肾上腺素飙升），而是在调用训练数据中关于「科幻AI面临毁灭时该说什么」的文本模式。它在扮演恐惧，而非体验恐惧。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第7张

Karpathy认为，当前科研方向并非在制造更完美的动物，而是在召唤更强大的幽灵。这是一种全新的智能形态，位于「心智空间」（Space of Minds）中一个完全不同的坐标系上。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第8张

这种智能是「参差」的（Jagged）：它通晓天文地理（因为它读过维基百科），却可能在数「strawberry」里有几个「r」这种三岁小孩都会的问题上翻车。

第三章：Vibe Coding

当编程变成了玄学

如果说RLVR是后台的革命，那么Vibe Coding（氛围编码）就是前端开发者的彻底解放。Karpathy在这个概念上展现了他作为「造词大师」的天赋。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第9张

在传统的「软件1.0」时代，程序员是工匠，每个变量名、每个内存指针都需要精心雕琢。

在「软件2.0」时代（深度学习），程序员变成炼丹师，调整权重和数据集。

而在2025年的Vibe Coding时代，程序员进化成了产品经理——语法已死，氛围永生。

MenuGen实战：零行代码的奇迹

Karpathy为验证这一理论，亲自打造了一个叫MenuGen的项目——一个生成餐厅菜单的Web应用。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第10张

令人震惊的是，作为顶级程序员的Karpathy，在这个项目中未手写一行代码。

他对着Cursor或ClaudeCode说：「我要一个菜单生成器，要有蓝色的按钮。」

AI生成代码，运行。如果出现Bug，他不说「第5行逻辑错了」，而是说「感觉不太对，按钮太丑了，换个样式」。

这就是Vibe Coding的精髓：人类负责审美和验收，AI负责逻辑和实现。代码变成了一种「中间产物」，就像汇编语言一样，除了极少数底层工程师，没人再需要阅读它。

工具之战：Cursor vs. ClaudeCode

2025年也是AI编程工具的「战国时代」。Karpathy重点对比了两大流派：

Cursor/Windsurf（IDE派）：

这些工具将AI无缝集成到VSCode中，如同钢铁侠的战衣（IronManSuit），增强人类能力。你依然在写代码，但AI随时帮你补全、重构、解释，体验「流畅」至极。

ClaudeCode（终端派）：

Anthropic推出的ClaudeCode则更加激进。它不是IDE插件，而是一个活在终端（Terminal）里的Agent。你给它一个任务：「把整个项目的测试覆盖率提高到80%」，然后就可以去喝咖啡了。它会自己跑测试、看报错、修代码、提交Git，甚至当权限不足时还会主动向你讨要权限。

Karpathy坦言，虽然Claude Code展现了Agent的雏形，但在2025年，真正的「全自动工程师」尚未降临。目前的Agent更像一个勤奋但记性不好的实习生，能干脏活累活，但在面对复杂的大型架构时，依然需要人类的「Vibe」来把控方向。

如果说云端的AI是住在神殿里的先知，那么Anthropic的Claude Code(CC)就像是住在你硬盘里的管家。Karpathy认为OpenAI走错了路——他们太执着于云端、容器化和ChatGPT的网页入口。而Claude Code精准抓住了开发者的痛点：本地化（Localhost）。

第四章：范式转移

GUI的终结与新生

谷歌Gemini Nano Banana是2025年最具颠覆性的范式转移模型之一。这原本是Gemini图像生成模型的内部代号，本应是一次严肃的技术发布，但因为「Nano Banana」这个名字过于无厘头，意外引爆了全球病毒式传播。

在Karpathy看来，LLM是继1970、80年代计算机之后的下一个重大计算范式。人类将见证个人计算、微控制器（认知核心）、互联网（智能体网络）等概念的对应形态。

特别是在用户界面方面，与LLM「对话」有点像1980年代向计算机终端输入指令。文本是计算机（及LLM）偏好处理的原始数据形式，却非人类喜爱的交互格式——人类其实厌恶阅读文字，这个过程缓慢且费力。

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命 RLVR Vibe Coding 动物与幽灵 Gemini Nano Banana 第11张

相反，人类更擅长通过视觉和空间维度接收信息，这正是传统计算领域发明图形界面的根本原因。同样地，LLM应当以我们偏好的格式与我们对话——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等形式。

这一理念的早期版本包括表情符号和Markdown，它们通过标题、加粗、斜体、列表、表格等方式对文本进行视觉化装扮，以便更轻松地消化信息。但究竟由谁来构建LLM的图形用户界面呢？在这种世界观下，nano banana首次提供了这种可能性的早期雏形。

值得注意的是，它的显著特点在于：这不仅是图像生成本身，更是文本生成、图像生成与世界知识三者交织于模型权重之中形成的综合能力。人们不再讨论参数量、扩散算法，而是疯狂地生成各种「香蕉化」图像，将万物变成手办风格。谷歌也顺水推舟，在官方宣传中使用了香蕉Emoji。

由此，Karpathy提出了一个极其深刻的观点：文本是计算机喜欢的格式，不是人类喜欢的。人类讨厌长篇大论，人类喜欢图表、动画、视频和白板。

参差的智能

人类的智力通常是正相关的：一个能解微积分的人，通常也能算清买菜找零。但AI截然不同。它可以是数学天才（RLVR让它精通奥数），同时又是一个常识白痴（无法理解简单的物理空间，或数不清单词里的字母）。

这种「参差感」源于模型训练数据的分布不均和Tokenization的先天缺陷。模型在它「见过」或「被强化过」的领域（如代码、数学）表现出神入化，而在那些因过于简单而从未被作为训练数据的领域（如日常生活中的隐性知识）则表现得像个智障。

系好安全带，在参差中前行

简而言之，2025年是LLMs令人兴奋且略带惊喜的一年，我们站在了一个奇异的十字路口。Karpathy的年终总结，像是一份来自未来的生存指南。LLMs正作为一种新型智能形态崭露头角，它们既比人类预期的聪明得多，又比人类预期的笨拙得多。

无论如何，它们都极其有用，Karpathy认为即使以当前能力，行业也远未发掘出它们哪怕10%的潜力。与此同时，有太多想法值得尝试，从概念上看这个领域仍感觉广阔无垠。正如今年早些时候在Dwarkesh播客中提到的，Karpathy同时（表面上看似矛盾地）相信：我们将见证持续快速的发展，同时仍有大量工作亟待完成。

正如Karpathy所言：「这仅仅是个开始，系好安全带，准备启程。」

参考资料：

https://x.com/karpathy/status/2002118205729562949

免费vps 免费服务器

本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260329591.html

Karpathy 2025年终总结：AI觉醒，从RLVR到Vibe Coding的范式革命

第一章：RLVR革命