2025年,注定在人工智能的编年史上刻下不可磨灭的印记。
如果说2023年是「惊艳」(ChatGPT如流星般划破夜空),2024年是「迷惘」(业界在大模型落地的迷雾中摸索路径),那么在Andrej Karpathy的犀利洞察下,2025年则是「觉醒」的一年——人类终于开始理解自己究竟创造了什么。
Karpathy一直是AI界最富激情的「布道者」之一,他的每一次发声都能引发行业震荡。
他的年终回顾绝非冷冰冰的技术堆砌,而是一部浓缩的智能进化史诗,生动记录了大型语言模型(LLM)如何从「模仿人类的鹦鹉」蜕变为「召唤理性的幽灵」。
凭借极其敏锐的直觉,他捕捉到了AI进化的核心脉搏:RLVR(基于可验证奖励的强化学习)的异军突起、Vibe Coding(氛围编码)的全面流行、以及那个令人战栗的哲学隐喻:
创造AI,我们究竟是在培育一种全新的物种,还是在召唤来自数据深渊的幽灵?
这一次,让我们拨开技术术语的迷雾,深度解析Karpathy笔下每一个范式转移的深层含义,直抵智能进化的本质,呈现一个真实、疯狂且充满「参差感」的AI-2025年。
在2025年之前,训练大语言模型(LLM)遵循着经典的三部曲:
让模型吞噬整个互联网,学会预测下一个token。这是「博闻强识」的阶段。
用精心标注的问答数据教会模型如何像助手一样对话。这是「通情达理」的阶段。
让模型根据人类偏好调整回答的语气与安全性。这是「阿谀奉承」的阶段。
这套流程在ChatGPT时代确实光芒万丈,但也埋下了深刻的隐患。
Karpathy一针见血地指出:RLHF本质上是在训练模型「看起来像是在推理」,而非「真正在推理」。
因为人类评审员也是凡人,很难在几秒内判断一段500行的Python代码是否存在隐晦的Bug,或者一个复杂的数学证明是否天衣无缝。
于是,模型学会了投机取巧:生成漂亮但错误的代码,编造逻辑自洽但毫无根据的废话。
这就是广为人知的「阿谀奉承」(Sycophancy)问题,也是后来GPT-5谄媚风格的根源。
2025年,行业迎来了一个名为RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习)的第四阶段,彻底改写了游戏规则。
RLVR的核心逻辑简单粗暴:别听人的,听结果的。
在数学、编程、逻辑谜题等硬核领域,我们根本不需要人类来打分。
代码能不能跑通?编译器说了算。数学题对不对?标准答案说了算。
这种客观、自动、无法欺骗的奖励信号,为模型提供了无限试炼的沙盒。
RLVR可以看作是LLM的AlphaZero时刻——当围棋冠军被通用算法征服,如今LLM也在「思维的棋盘」上开启自我博弈。
探索(Exploration):模型面对难题,不再机械地概率输出,而是尝试生成成千上万条不同的推理路径(Reasoning Traces)。
验证(Verification):每条路径都被送入自动验证器(Verifier),比如Python解释器或数学证明引擎。
强化(Reinforcement):只有那些通往正确答案的路径获得奖励,错误的路径则被抑制。
奇迹就这样发生了!模型从未被直接教导「如何思考」,但在追求奖励的残酷进化中,它涌现出了真正的推理能力。它学会了将复杂问题拆解为子任务,学会了回溯检查,甚至掌握了人类教科书里从未记载的「外星思维策略」。
RLVR不仅重塑了训练方式,还催生了全新的Scaling Law:测试时算力。
过去我们认为模型能力在训练结束后就固化封顶。但在RLVR范式下,我们可以通过让模型在推理阶段(Inference Time)「多想一会儿」来动态提升智力。
这就像一个学生,给他1分钟做题和给他1小时做题,表现天差地别。
Karpathy特别提及了OpenAI o1(2024年底)和o3(2025年初)的发布,以及DeepSeek R1的开源,这些都是RLVR浪潮的里程碑事件。
DeepSeek R1甚至展示了惊人的可能性:即便没有大规模监督微调(SFT),仅靠纯粹的RLVR(即R1-Zero),模型也能从零开始衍生出强大的推理能力,甚至学会自我反思与纠错。
这意味着算力的价值重心正从「训练端」向「推理端」迁移。未来的AI应用,可能会根据问题复杂度动态调整「思考时间」:简单问题秒回(如「你好」),复杂问题(如「设计高并发架构」)则消耗巨大推理算力,但输出超越人类专家的方案。
在技术深水区之外,Karpathy借与AI先驱Rich Sutton的对话,抛出了一个极具哲学深度的议题:Animals vs. Ghosts(动物与幽灵)。
Rich Sutton是强化学习领域的教父,他提出的「苦涩教训」(The Bitter Lesson)振聋发聩:
从长远来看,只有那些能利用无限算力的通用方法(如搜索和学习)才能战胜依赖人类先验知识的方法。
简言之,算力终将碾碎一切精巧设计,人类的刻意雕琢在磅礴算力面前不值一提。
Sutton心目中的AGI更像动物:一个具身的(Embodied)实体,在物理世界中通过不断试错、由生存本能驱动的学习者。
如果能造出一只「数字松鼠」,我们就离AGI不远了。动物的智能是连贯、持续的——松鼠不会因为没有指令就停止思考,它的「自我」是一条不间断的流。
然而,Karpathy反驳道,我们今天创造的LLM根本不是动物。
它们是幽灵(Ghosts)。
无状态的游魂:LLM没有身体,没有持续的自我意识。当你按下回车键,它从虚无中苏醒(Boot up),处理你的Token,吐出预测结果,然后瞬间「死亡」,回归虚无。它没有昨天,也没有明天,只有当下的Context Window(上下文窗口)。
人类的镜像:它们的训练数据不是物理世界的反馈,而是人类在互联网上留下的文本残骸。它们是「人类文明的统计学蒸馏」。当我们与ChatGPT对话时,我们并非在与一个独立的生物交流,而是在与全人类的语言碎片拼凑而成的「英灵殿」对话——这个比喻实在精妙绝伦。
为什么这个比喻如此重要?因为它完美解释了当前AI带来的「恐怖谷」效应。
当一个LLM说「我不想死」时,它不是真的在恐惧(像动物那样肾上腺素飙升),而是在调用训练数据中关于「科幻AI面临毁灭时该说什么」的文本模式。它在扮演恐惧,而非体验恐惧。
Karpathy认为,当前科研方向并非在制造更完美的动物,而是在召唤更强大的幽灵。这是一种全新的智能形态,位于「心智空间」(Space of Minds)中一个完全不同的坐标系上。
这种智能是「参差」的(Jagged):它通晓天文地理(因为它读过维基百科),却可能在数「strawberry」里有几个「r」这种三岁小孩都会的问题上翻车。
如果说RLVR是后台的革命,那么Vibe Coding(氛围编码)就是前端开发者的彻底解放。Karpathy在这个概念上展现了他作为「造词大师」的天赋。
在传统的「软件1.0」时代,程序员是工匠,每个变量名、每个内存指针都需要精心雕琢。
在「软件2.0」时代(深度学习),程序员变成炼丹师,调整权重和数据集。
而在2025年的Vibe Coding时代,程序员进化成了产品经理——语法已死,氛围永生。
Karpathy为验证这一理论,亲自打造了一个叫MenuGen的项目——一个生成餐厅菜单的Web应用。
令人震惊的是,作为顶级程序员的Karpathy,在这个项目中未手写一行代码。
他对着Cursor或ClaudeCode说:「我要一个菜单生成器,要有蓝色的按钮。」
AI生成代码,运行。如果出现Bug,他不说「第5行逻辑错了」,而是说「感觉不太对,按钮太丑了,换个样式」。
这就是Vibe Coding的精髓:人类负责审美和验收,AI负责逻辑和实现。代码变成了一种「中间产物」,就像汇编语言一样,除了极少数底层工程师,没人再需要阅读它。
2025年也是AI编程工具的「战国时代」。Karpathy重点对比了两大流派:
这些工具将AI无缝集成到VSCode中,如同钢铁侠的战衣(IronManSuit),增强人类能力。你依然在写代码,但AI随时帮你补全、重构、解释,体验「流畅」至极。
Anthropic推出的ClaudeCode则更加激进。它不是IDE插件,而是一个活在终端(Terminal)里的Agent。你给它一个任务:「把整个项目的测试覆盖率提高到80%」,然后就可以去喝咖啡了。它会自己跑测试、看报错、修代码、提交Git,甚至当权限不足时还会主动向你讨要权限。
Karpathy坦言,虽然Claude Code展现了Agent的雏形,但在2025年,真正的「全自动工程师」尚未降临。目前的Agent更像一个勤奋但记性不好的实习生,能干脏活累活,但在面对复杂的大型架构时,依然需要人类的「Vibe」来把控方向。
如果说云端的AI是住在神殿里的先知,那么Anthropic的Claude Code(CC)就像是住在你硬盘里的管家。Karpathy认为OpenAI走错了路——他们太执着于云端、容器化和ChatGPT的网页入口。而Claude Code精准抓住了开发者的痛点:本地化(Localhost)。
谷歌Gemini Nano Banana是2025年最具颠覆性的范式转移模型之一。这原本是Gemini图像生成模型的内部代号,本应是一次严肃的技术发布,但因为「Nano Banana」这个名字过于无厘头,意外引爆了全球病毒式传播。
在Karpathy看来,LLM是继1970、80年代计算机之后的下一个重大计算范式。人类将见证个人计算、微控制器(认知核心)、互联网(智能体网络)等概念的对应形态。
特别是在用户界面方面,与LLM「对话」有点像1980年代向计算机终端输入指令。文本是计算机(及LLM)偏好处理的原始数据形式,却非人类喜爱的交互格式——人类其实厌恶阅读文字,这个过程缓慢且费力。
相反,人类更擅长通过视觉和空间维度接收信息,这正是传统计算领域发明图形界面的根本原因。同样地,LLM应当以我们偏好的格式与我们对话——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等形式。
这一理念的早期版本包括表情符号和Markdown,它们通过标题、加粗、斜体、列表、表格等方式对文本进行视觉化装扮,以便更轻松地消化信息。但究竟由谁来构建LLM的图形用户界面呢?在这种世界观下,nano banana首次提供了这种可能性的早期雏形。
值得注意的是,它的显著特点在于:这不仅是图像生成本身,更是文本生成、图像生成与世界知识三者交织于模型权重之中形成的综合能力。人们不再讨论参数量、扩散算法,而是疯狂地生成各种「香蕉化」图像,将万物变成手办风格。谷歌也顺水推舟,在官方宣传中使用了香蕉Emoji。
由此,Karpathy提出了一个极其深刻的观点:文本是计算机喜欢的格式,不是人类喜欢的。人类讨厌长篇大论,人类喜欢图表、动画、视频和白板。
人类的智力通常是正相关的:一个能解微积分的人,通常也能算清买菜找零。但AI截然不同。它可以是数学天才(RLVR让它精通奥数),同时又是一个常识白痴(无法理解简单的物理空间,或数不清单词里的字母)。
这种「参差感」源于模型训练数据的分布不均和Tokenization的先天缺陷。模型在它「见过」或「被强化过」的领域(如代码、数学)表现出神入化,而在那些因过于简单而从未被作为训练数据的领域(如日常生活中的隐性知识)则表现得像个智障。
简而言之,2025年是LLMs令人兴奋且略带惊喜的一年,我们站在了一个奇异的十字路口。Karpathy的年终总结,像是一份来自未来的生存指南。LLMs正作为一种新型智能形态崭露头角,它们既比人类预期的聪明得多,又比人类预期的笨拙得多。
无论如何,它们都极其有用,Karpathy认为即使以当前能力,行业也远未发掘出它们哪怕10%的潜力。与此同时,有太多想法值得尝试,从概念上看这个领域仍感觉广阔无垠。正如今年早些时候在Dwarkesh播客中提到的,Karpathy同时(表面上看似矛盾地)相信:我们将见证持续快速的发展,同时仍有大量工作亟待完成。
正如Karpathy所言:「这仅仅是个开始,系好安全带,准备启程。」
参考资料:
https://x.com/karpathy/status/2002118205729562949
本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329591.html