当前位置:首页 > 科技资讯 > 正文

强化学习:从辉煌到困境,再出发

近期,斯坦福大学AI+CS博士Joseph Suarez对强化学习领域进行了深刻的回顾。

结果,这篇文章在𝕏上迅速走红,目前已累积了38.2万次阅读。

强化学习:从辉煌到困境,再出发 强化学习 历史回顾 挑战 解决方案 第1张

封面图尤为引人注目:一条曲线起初快速攀升,随后平稳上升,最终却急剧下滑,暗喻强化学习领域的研究前景似乎并不乐观。

从历史维度审视,强化学习经历了什么?为何直到如今它才真正实现飞跃?

他提供了独到的个人见解。

强化学习:从辉煌到困境,再出发 强化学习 历史回顾 挑战 解决方案 第2张

出身名门

2019年,他以优异成绩从斯坦福大学计算机科学专业毕业,专攻人工智能方向。

2018年,他利用休学期间在OpenAI完成了为期6个月的实习,期间正式发布了Neural MMO的首个公开版本。

更早之前,他曾在李飞飞课题组、吴恩达实验室参与过研究项目。

大约从2017年起,他开始涉足强化学习。

当时,他在麻省理工学院Phillip Isola实验室攻读博士学位,并着手创建开源计算研究平台Neural MMO。

他的研究致力于推动基于智能体的现代学习方法向更复杂、更具认知真实性的环境拓展。

强化学习:从辉煌到困境,再出发 强化学习 历史回顾 挑战 解决方案 第3张

后来,这个项目成为了他整个博士毕业论文的主题。

强化学习:从辉煌到困境,再出发 强化学习 历史回顾 挑战 解决方案 第4张

论文链接:点击这里查看

这也为他开发PufferLib奠定了基础。

强化学习:从辉煌到困境,再出发 强化学习 历史回顾 挑战 解决方案 第5张

当时,各大实验室也在进行从零开始、非语言模型的强化学习研究。

事实上,这是当时大多数工作的重心:多智能体(multiagent)刚刚兴起,所有核心算法刚刚发布。

AlphaGo让研究者已经看到了强化学习的潜力。OpenAI Five正在研发中,当时他恰好在OpenAI实习,因此亲眼见证了一些工作成果。

强化学习:从辉煌到困境,再出发 强化学习 历史回顾 挑战 解决方案 第6张

OpenAI的DoTA(Dota 2)项目,则让他完全信服强化学习的神奇。

强化学习:从辉煌到困境,再出发 强化学习 历史回顾 挑战 解决方案 第7张

论文链接:点击这里查看

如果你不玩这款游戏,很难想象这个问题有多复杂。

你不会相信人们会把打DoTA当作爱好。它与围棋并不完全一样,无法直接比较,但它确实涉及许多围棋中没有的、与现实世界相关的推理类型。

例如,高低级策略、控制、团队协调和心智理论(theory of mind),这些只是其中几个例子。

强化学习:从辉煌到困境,再出发 强化学习 历史回顾 挑战 解决方案 第8张