当前位置：首页 > 科技资讯 > 正文

强化学习：从辉煌到困境，再出发

近期，斯坦福大学AI+CS博士Joseph Suarez对强化学习领域进行了深刻的回顾。

结果，这篇文章在𝕏上迅速走红，目前已累积了38.2万次阅读。

强化学习：从辉煌到困境，再出发强化学习历史回顾挑战解决方案第1张

封面图尤为引人注目：一条曲线起初快速攀升，随后平稳上升，最终却急剧下滑，暗喻强化学习领域的研究前景似乎并不乐观。

从历史维度审视，强化学习经历了什么？为何直到如今它才真正实现飞跃？

他提供了独到的个人见解。

强化学习：从辉煌到困境，再出发强化学习历史回顾挑战解决方案第2张

出身名门

2019年，他以优异成绩从斯坦福大学计算机科学专业毕业，专攻人工智能方向。

2018年，他利用休学期间在OpenAI完成了为期6个月的实习，期间正式发布了Neural MMO的首个公开版本。

更早之前，他曾在李飞飞课题组、吴恩达实验室参与过研究项目。

大约从2017年起，他开始涉足强化学习。

当时，他在麻省理工学院Phillip Isola实验室攻读博士学位，并着手创建开源计算研究平台Neural MMO。

他的研究致力于推动基于智能体的现代学习方法向更复杂、更具认知真实性的环境拓展。

强化学习：从辉煌到困境，再出发强化学习历史回顾挑战解决方案第3张

后来，这个项目成为了他整个博士毕业论文的主题。

强化学习：从辉煌到困境，再出发强化学习历史回顾挑战解决方案第4张

这也为他开发PufferLib奠定了基础。

强化学习：从辉煌到困境，再出发强化学习历史回顾挑战解决方案第5张

当时，各大实验室也在进行从零开始、非语言模型的强化学习研究。

事实上，这是当时大多数工作的重心：多智能体（multiagent）刚刚兴起，所有核心算法刚刚发布。

AlphaGo让研究者已经看到了强化学习的潜力。OpenAI Five正在研发中，当时他恰好在OpenAI实习，因此亲眼见证了一些工作成果。

强化学习：从辉煌到困境，再出发强化学习历史回顾挑战解决方案第6张

OpenAI的DoTA（Dota 2）项目，则让他完全信服强化学习的神奇。

强化学习：从辉煌到困境，再出发强化学习历史回顾挑战解决方案第7张

如果你不玩这款游戏，很难想象这个问题有多复杂。

你不会相信人们会把打DoTA当作爱好。它与围棋并不完全一样，无法直接比较，但它确实涉及许多围棋中没有的、与现实世界相关的推理类型。

例如，高低级策略、控制、团队协调和心智理论（theory of mind），这些只是其中几个例子。

强化学习：从辉煌到困境，再出发强化学习历史回顾挑战解决方案第8张

本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260438866.html