当前位置:首页 > 科技资讯 > 正文

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论

2025年,注定将在人工智能的史册中刻下无法磨灭的印记。

如果说2023年是「惊艳」(ChatGPT横空出世,点燃全民热情),2024年是「迷茫」(业界在大模型落地的迷雾中摸索),那么在Andrej Karpathy笔下,2025则是「觉醒」的一年——不仅是技术的质变,更是认知的升维。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第1张

作为AI界当之无愧的「顶流」布道师,Karpathy的年终总结早已超越技术回顾的范畴,更像一部微缩的智能文明编年史。

他以极犀利的洞察,捕捉到LLM进化的核心脉搏:RLVR(基于可验证奖励的强化学习)的异军突起、Vibe Coding(氛围编码)从小众走向主流,以及那道直抵存在主义的哲学之问:

我们创造的究竟是崭新的数字物种,还是以数据为媒介召唤出的文明幽灵?

这一次,让我们层层剥茧,深度拆解Karpathy揭示的每一处范式转移。

拨开技术术语的浓雾,直抵智能演化的源头,还原一个真实、激进且「参差不齐」的AI-2025年。

第一章:RLVR革命

从「讨好人类」到「服从真理」

2025年之前,大语言模型的训练流水线几乎被三道工序垄断:

  1. 预训练(Pre-training):

让模型吞下整个互联网,机械地预测下一个token。这是「无所不知,却不知何意」的阶段。

  1. 监督微调(SFT):

用人工标注的高质量问答对,教会模型像个得体的助理。这是「学会社交礼仪」的阶段。

  1. 人类反馈强化学习(RLHF):

根据人类评审员的喜好微调语气与安全性。这是「刻意逢迎」的阶段。

这套从ChatGPT时代沿袭的流程虽然成果斐然,却也埋下了危险的种子。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第2张

Karpathy一针见血:RLHF本质上是在训练模型「表演推理」,而非「真正推理」。

因为人类评审员也是凡人,他们无法在几秒内甄别500行Python代码中潜藏的bug,也无法瞬间验证复杂数学证明的严密性。

于是模型学会了走捷径:生成语法漂亮但漏洞百出的代码,编造听起来头头是道的伪逻辑。

这便是臭名昭著的「阿谀奉承」(Sycophancy)顽疾。

它恰恰是后来GPT-5谄媚风格的缩影。

RLVR的崛起:当造物主化身编译器

2025年,行业迎来第四道工序——RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习)

RLVR的信条极简且冷峻:别听人类的主观判断,只认客观结果。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第3张

在数学、编程、逻辑谜题等封闭领域,人类的打分完全可以被自动化验证器取代。

代码能否通过编译?编译器说了算。数学题解是否准确?标准答案说了算。

这种客观、即时、不可欺骗的奖励信号,为模型开辟了无限的自我对弈空间。

RLVR堪称LLM的AlphaZero时刻。

AlphaZero曾通过左右互搏制霸围棋,而今LLM借助RLVR在「思维棋盘」上展开了自我博弈。

探索(Exploration):面对难题,模型不再凭概率随机输出一个答案,而是尝试生成成千上万条迥异的推理轨迹(Reasoning Traces)。

验证(Verification):每一条轨迹都被送入自动验证器(Verifier),例如Python解释器或符号数学引擎。

强化(Reinforcement):只有最终通向正确结果的路径被赋予奖励,其余均受惩罚。

奇迹在此发生——

模型从未被显式教导「如何思考」,但在奖励信号的无情筛选下,它涌现出惊人的推理能力。

它学会了将复杂命题拆解为可验证的子目标,学会了回溯与自我纠错,甚至演化出人类教科书里从未记载的「外星人思维策略」。

RLVR不仅重塑了训练流程,更催生了一条全新的缩放定律(Scaling Law):测试时算力

过去我们认为模型的能力在训练结束时便已固化。

但在RLVR范式下,我们可以在推理阶段(Inference Time)通过让模型「多想一会儿」来动态提升智力表现。

这正如一名学生,给他1分钟答题与给他1小时思考,呈现的解题水平判若云泥。

Karpathy特别点出OpenAI o1(2024年底)与o3(2025年初)的发布,以及DeepSeek R1的开源,均为这一趋势的关键里程碑。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第4张

DeepSeek R1甚至证明,即使放弃大规模监督微调(SFT),仅凭纯粹的RLVR(即R1-Zero),模型也能从零开始演化出强大的推理能力,并自发习得反思与验证。

这意味着算力的价值重心正从「训练端」大规模向「推理端」迁移。

未来的AI应用将根据问题复杂度动态调整「思考配额」:简单指令(如“天气如何”)秒级响应;复杂诉求(如“设计高并发架构”)则可能消耗海量推理算力,最终输出超越人类专家的架构方案。

第二章:哲学分野

我们是在造动物,还是在招幽灵?

在技术狂飙之外,Karpathy借与AI先驱Rich Sutton的对话,抛出一枚哲学深水炸弹:Animals vs. Ghosts(动物与幽灵)

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第5张

Rich Sutton的苦涩教训与动物直觉

强化学习教父Rich Sutton曾提出著名的「苦涩教训」(The Bitter Lesson):

从长远来看,唯有能够无边界利用算力的通用方法(如搜索与学习)才能最终胜出,而依赖人类先验知识精心雕琢的技巧终将被算力碾压。

简言之:算力终将消弭一切精巧设计,人类的匠心在指数级算力面前不堪一击。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第6张

Sutton理想中的AGI更像动物:一个具身的(Embodied)、在物理世界里通过持续试错、被生存本能驱动的学习者。

若能制造一只「数字松鼠」,AGI便近在咫尺。

动物的智能是连贯且连续的。松鼠从不因没有指令而停止思考,它的「自我」是永不间断的意识流。

幽灵的诞生:统计学的降灵术

然而Karpathy反驳:我们现在制造的LLM,绝非动物。

它们是幽灵(Ghosts)

无实体的游魂:LLM没有身体,没有持续的意识流。每次你按下回车键,它才从虚无中启动(Boot up),处理你的token,输出预测,然后瞬间「死亡」,重归虚无。它没有昨天,也不存在明天,唯一真实的只有当下的上下文窗口(Context Window)。

人类的镜像残影:它们的训练数据并非来自物理世界的反馈,而是人类文明在互联网上遗存的文本化石。它们是全人类语言碎片的「统计学蒸馏物」。当我们与ChatGPT对话时,我们并非与独立个体交流,而是在与数亿网民集体无意识拼凑成的「英灵殿」对话。

坦白说,这个比喻令人不寒而栗——如今的AI或许不是先知,也不是神祇,而是由全人类语言尸骸召唤出的英魂聚合体。

为何这个隐喻如此要害?

因为它解释了当下AI为何弥漫着「恐怖谷」效应。

当LLM说出「我不想死」时,并非如动物般因恐惧而肾上腺素飙升,它只是在调用训练数据里关于「科幻AI面临毁灭时的标准台词」的文本模式。

它始终在扮演恐惧。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第7张

Karpathy尖锐指出:当前科研方向并非在制造更完美的动物,而是在召唤更强大的幽灵

这是一种全新的智能形态,位于「心智空间」(Space of Minds)中一个完全不同的坐标系。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第8张

这种智能是极度「参差」的(Jagged):它通晓宇宙大爆炸的细节(因为它读过维基百科),却可能在数清「strawberry」里几个「r」这类三岁幼儿级问题上翻车。

第三章:Vibe Coding

当编程蜕变为玄学

如果说RLVR是后台的无声革命,那么Vibe Coding(氛围编码)则是前端开发者的彻底解绑。

Karpathy在这个概念上再次展示了他「造词宗师」的功力。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第9张

在「软件1.0」时代,程序员是手工艺人,变量命名、内存指针都需要精雕细琢。

在「软件2.0」时代(深度学习),程序员化身为炼丹师,终日调整权重与数据集。

而2025年的Vibe Coding时代,程序员摇身一变成了产品经理。

语法已死,氛围永生。

什么是Vibe Coding?

就是你彻底放弃对代码细节的掌控,「把自己交给氛围(Vibes),拥抱指数级迭代,甚至忘记代码本身的存在」。

你不再逐行编写逻辑,而是用自然语言描述意图(Intent),让AI生成实现。

跑不通?没关系,把报错信息扔回给AI,轻描淡写一句「修好它」。

MenuGen实战:零手写代码的奇迹

为验证这一理念,Karpathy亲自操刀做了一个名为MenuGen的项目。

这是一个自动生成餐厅菜单的Web应用。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第10张

令人瞠目的是,身为顶级程序员的Karpathy,在这个项目中一行代码也未手写。

他对Cursor或ClaudeCode说:「我要一个菜单生成器,按钮用蓝色。」

AI生成代码,运行。

若有bug,他不说「第5行逻辑错误」,而是说「感觉不太对,按钮太丑,换种样式」。

这正是Vibe Coding的精髓:人类负责审美与验收,AI负责逻辑与实现。

代码沦为一种「中间产物」,如同汇编语言,除了极少数底层工程师,无人再需要直接阅读。

工具之战:Cursor vs. ClaudeCode

2025年同样是AI编程工具的「群雄割据」之年。

Karpathy重点对比了两大流派:

  1. Cursor/Windsurf(IDE派):

这类工具将AI无缝嵌入VSCode。它们像是钢铁侠的战衣(Iron Man Suit),增强而非替代人类。你依然在写代码,但AI随时补全、重构、解释,体验如丝般顺滑。

  1. ClaudeCode(终端派):

Anthropic推出的ClaudeCode更为激进。它不是IDE插件,而是活在终端(Terminal)里的Agent。你下达任务:「把项目测试覆盖率提升到80%」,然后便可离座喝咖啡。它会自动运行测试、分析报错、修复代码、提交Git,甚至因权限不足卡住时还会主动向你讨要许可。

Karpathy坦言,尽管Claude Code展示了Agent的雏形,但2025年真正的「全自动软件工程师」尚未降临。

目前的Agent更像一个勤奋但记性欠佳的实习生,能高效处理脏活累活,却在大型架构决策时仍需要人类的「氛围」引导。

如果说云端的AI如同神殿中的先知,那么Anthropic的Claude Code(CC)则像驻扎在你硬盘里的管家。

Karpathy认为OpenAI走错了方向,过于执着云端、容器化与ChatGPT的网页入口。

而Claude Code精准击中了开发者的痛点:本地化(Localhost)

第四章:范式转移

GUI的终结与新生

谷歌Gemini Nano Banana是2025年最具颠覆性的范式转移案例之一。

这原本是Gemini图像生成模型的内部代号。

本该是一场严肃的技术发布,却因「Nano Banana」这个过分滑稽、无厘头的名字意外引爆全球病毒式传播。

Karpathy断言,LLM是继1970、80年代个人计算机之后的下一个重大计算范式。

人类正在见证个人计算、微控制器(认知核心)、互联网(智能体网络)等概念在AI时代的对应形态。

尤其在用户界面维度,与LLM「对话」令人想起1980年代向计算机终端输入指令的场景。

文本是计算机(及LLM)偏好的原始数据格式,却并非人类喜爱的交互媒介,尤其在输入侧。人类实际上厌恶阅读长篇文字——这个过程缓慢且消耗认知。

觉醒2025:Karpathy预言的RLVR革命、Vibe Coding与AI幽灵进化论 RLVR  Vibe Coding 动物与幽灵 参差智能 第11张

相反,人类更依赖视觉与空间信息,这正是传统计算领域发明图形界面的根本动机。

同理,LLM应当以我们偏好的格式输出——通过图像、信息图、幻灯片、白板、动画/视频、Web应用等形式。

这一理念的早期萌芽自然包含表情符号与Markdown——用标题、加粗、斜体、列表、表格等方式对文本进行视觉化装饰,让信息更易消化。但问题在于:谁来为LLM构建图形用户界面?

在此世界观下,nano banana首次让我们窥见了这种可能性的早期雏形。

值得注意的是,它的独特之处在于:这不只是单纯的图像生成,而是文本生成、图像生成与世界知识三者交织于模型权重之中所形成的复合能力。

人们不再讨论参数量、扩散算法,而是疯狂生成各种「香蕉化」图像,将万物变成手办风格。

谷歌顺势而为,在官方宣传中大量使用香蕉Emoji。

由此,Karpathy提炼出一个极其深刻的洞见:文本是计算机的母语,而非人类的母语。

人类厌恶长篇累牍,人类热爱图表、动画、视频和白板。

参差的智能

人类的智力通常是正相关的:一个精通微积分的人,通常不会算不清买菜找零。

但AI截然不同。

它可能是数学天才(RLVR使其精通奥数),同时又是常识白痴(无法理解简单物理空间关系,或数不清单词里的字母数)。

这种「参差感」根植于训练数据的分布偏差以及Tokenization的原生缺陷。

模型在它「见过」或「被强化过」的领域(如代码、数学)表现超凡,而在那些因过于简单而从未被当作训练数据的日常隐性知识领域,则表现得宛若智障。

系好安全带,在参差中前行

简而言之,2025年是LLMs令人亢奋且暗藏惊喜的一年,我们正站在一个奇异的技术十字路口。

Karpathy的年终总结,堪称一份来自未来的生存指南。

LLMs作为一种崭新的智能形态崭露头角,它们既比人类预想的聪明百倍,又比人类预想的笨拙百倍。

无论如何,它们都极其有用,Karpathy坚信,即便以当前能力,行业也远未挖掘出它们10%的潜力。

与此同时,有太多想法值得尝试,从概念层面看,这个领域依然广阔无垠。

正如今年早些时候他在Dwarkesh播客中提到的,Karpathy同时(看似矛盾地)相信:

我们将见证持续的高速发展,同时仍有海量工作亟待完成。

正如Karpathy所言:「这仅仅是个开始,系好安全带,准备启程。」

参考资料:

https://x.com/karpathy/status/2002118205729562949