当前位置：首页 > 科技资讯 > 正文

Meta再失大将：强化学习专家Rishabh Agarwal离职

主机测评网
科技资讯
2026-04-25
595

Meta公司近期人才流失严重，再度传来噩耗：强化学习领域的顶尖专家Rishabh Agarwal即将离职，还留下了一篇意味深长的小作文。

在最新的消息中，Meta公司强化学习大佬Rishabh Agarwal即将离职，他留下了一篇让人思绪万千的小作文：

这是我在Meta的最后一周。

决定不加入新的超级智能实验室并非易事，毕竟那里人才济济、算力无限。但在Google Brain、DeepMind和Meta度过了7年半之后，我更渴望去冒险尝试一条截然不同的道路。

Meta组建超级智能团队的想法固然吸引人，但我最终选择听从扎克伯格的忠告：“在这个瞬息万变的世界里，最大的风险就是不去冒险。”

Meta再失大将：强化学习专家Rishabh Agarwal离职 Meta Rishabh Agarwal 强化学习离职第1张

尽管表面上看似双方是“和平分手”，但网友们还是从字里行间嗅出了一丝不寻常的气息：

把小扎的原话甩回他自己脸上，这操作绝了，瑞思拜！

Meta再失大将：强化学习专家Rishabh Agarwal离职 Meta Rishabh Agarwal 强化学习离职第2张

十亿可以为你买一栋房子，但买不到你的梦想。

Meta再失大将：强化学习专家Rishabh Agarwal离职 Meta Rishabh Agarwal 强化学习离职第3张

无论猜测还是吐槽，谷歌和Meta的同事们都不约而同地送上了祝福，并回顾了他在职期间的卓越贡献。

据悉，他参与了谷歌Gemini 1.5、Gemma 2以及Meta推理模型后训练的关键工作，还曾在2021年以一篇RL算法评估论文荣获NeurIPS杰出论文奖。

Meta再失大将：强化学习专家Rishabh Agarwal离职 Meta Rishabh Agarwal 强化学习离职第4张

那么，Rishabh Agarwal究竟是何方神圣？他的离职又为何在这个时刻掀起波澜？

曾被Hinton劝退“不要做强化学习”，未来去向成谜

Rishabh Agarwal长期致力于强化学习和推理研究，其谷歌学术论文被引用上万次，h-index高达34。

Meta再失大将：强化学习专家Rishabh Agarwal离职 Meta Rishabh Agarwal 强化学习离职第5张

本科毕业于印度理工学院孟买分校计算机科学与工程专业，成绩始终名列前茅。

2018年，他以AI Resident的身份加入Google Brain多伦多团队，在Geoffrey Hinton团队中工作了一年。

颇具戏剧性的是，Hinton曾建议他“不要做强化学习（RL）”，但随后又留有余地——应该追随自己认为最好的事物（毕竟Hinton本人当年做的事也不被所有人看好）。

于是，Rishabh Agarwal义无反顾地投身强化学习，并决定继续攻读博士学位。

第二年，他便前往蒙特利尔的Mila研究所申请PhD，由于与面试官之一Aaron Courville（与Bengio等人合著《深度学习》经典教材）在强化学习领域的研究方向“不谋而合”，当场被邀请加入其团队。

接下来的四年里，他在Aaron Courville和Marc Bellemare两位顶尖导师的指导下深耕强化学习，同时保留在Google Brain的全职工作。

直到2023年，Marc Bellemare发布了一条提前庆祝他通过博士毕业答辩的推文，连谷歌首席科学家Jeff Dean也前来祝贺。

Meta再失大将：强化学习专家Rishabh Agarwal离职 Meta Rishabh Agarwal 强化学习离职第6张

此后，他顺理成章地加入蒙特利尔谷歌DeepMind团队，担任研究科学家，同时在麦吉尔大学担任兼职教授。

在谷歌工作期间，他参与了Gemini 1.5（当时号称最强多模态、上下文突破百万）、Gemma 2（新一代轻量级开源模型）、Gemma 3等重要模型的发布工作。

2021年，他还发表了论文《Deep Reinforcement Learning at the Edge of the Statistical Precipice》，荣获NeurIPS杰出论文奖。

简而言之，这篇论文分析了深度强化学习中的统计不稳定性问题，指出在有限实验下评估算法可能产生误导性结果。由于系统性揭示了RL中的方差问题与过拟合风险，被视为评价RL算法的里程碑工作。

Meta再失大将：强化学习专家Rishabh Agarwal离职 Meta Rishabh Agarwal 强化学习离职第7张

后来他从谷歌转投Meta，推进Meta推理模型的后训练工作，包括：

用RL规模化训练，将8B稠密模型推至接近DeepSeek-R1的水平；
在训练中途引入合成数据，为RL提供热启动；
提出更高效的on-policy蒸馏方法。

Meta再失大将：强化学习专家Rishabh Agarwal离职 Meta Rishabh Agarwal 强化学习离职第8张

如今随着Rishabh Agarwal的离开，网友们纷纷为Meta感到惋惜，又损失了一员大将。

Meta老员工纷纷出逃？

其实不止Rishabh Agarwal，几乎同时，一位在Meta工作了12年的老员工也宣布离职。

Meta再失大将：强化学习专家Rishabh Agarwal离职 Meta Rishabh Agarwal 强化学习离职第9张

性价比服务器云服务器免费vps

本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260440233.html

上一篇

谷歌发布新模型：nano banana 闪亮登场

下一篇

蔚来ES8：价格调整与市场复苏的双赢战略