近期,斯坦福大学AI+CS博士Joseph Suarez对强化学习领域进行了深刻的回顾。
结果,这篇文章在𝕏上迅速走红,目前已累积了38.2万次阅读。
封面图尤为引人注目:一条曲线起初快速攀升,随后平稳上升,最终却急剧下滑,暗喻强化学习领域的研究前景似乎并不乐观。
从历史维度审视,强化学习经历了什么?为何直到如今它才真正实现飞跃?
他提供了独到的个人见解。
2019年,他以优异成绩从斯坦福大学计算机科学专业毕业,专攻人工智能方向。
2018年,他利用休学期间在OpenAI完成了为期6个月的实习,期间正式发布了Neural MMO的首个公开版本。
更早之前,他曾在李飞飞课题组、吴恩达实验室参与过研究项目。
大约从2017年起,他开始涉足强化学习。
当时,他在麻省理工学院Phillip Isola实验室攻读博士学位,并着手创建开源计算研究平台Neural MMO。
他的研究致力于推动基于智能体的现代学习方法向更复杂、更具认知真实性的环境拓展。
后来,这个项目成为了他整个博士毕业论文的主题。
论文链接:点击这里查看
这也为他开发PufferLib奠定了基础。
当时,各大实验室也在进行从零开始、非语言模型的强化学习研究。
事实上,这是当时大多数工作的重心:多智能体(multiagent)刚刚兴起,所有核心算法刚刚发布。
AlphaGo让研究者已经看到了强化学习的潜力。OpenAI Five正在研发中,当时他恰好在OpenAI实习,因此亲眼见证了一些工作成果。
OpenAI的DoTA(Dota 2)项目,则让他完全信服强化学习的神奇。
论文链接:点击这里查看
如果你不玩这款游戏,很难想象这个问题有多复杂。
你不会相信人们会把打DoTA当作爱好。它与围棋并不完全一样,无法直接比较,但它确实涉及许多围棋中没有的、与现实世界相关的推理类型。
例如,高低级策略、控制、团队协调和心智理论(theory of mind),这些只是其中几个例子。
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260438866.html