你好,游客 登录
背景:
阅读新闻

无DeepMind 发布新架构 让AI 边玩游戏边强化学习

[日期:2018-04-03] 来源:雷锋网  作者: [字体: ]

 

雷锋网按:这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。

原标题 DeepMind's AI Masters Even More Atari Games | Two Minute Papers

翻译 | 熊逸凡 字幕 | 凡江 

论文标题:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

▷每周一篇2分钟论文视频解读

众所周知,强化学习是一种算法,我们可以用它在环境中选择一系列的行动来达到最高分数。这种算法有很多种应用,在这里我们单独拿电子游戏出来做例子,是因为它能够呈现给玩家多种多样的挑战。DeepMind 实验室为了更加直观地进行研究,使用第一视角来玩3D游戏。DeepMind实验室有一个简单却很灵活的API,可以让训练对象学习不同的任务,该实验室的游戏引擎功能强大,运行速度飞快,适用各种研究场景。

在强化学习过程中,我们通常有一个任务目标(比如学习后空翻)和一个我们想要训练好的对象。在本篇论文中,我将介绍的这个项目,是DeepMind对于改进强化学习的一次尝试。通过训练,使一个对象能完成比以往多得多种类的任务,这显然意味着我们需要获得更多的训练数据‍,以及为最高效地处理这些数据作好准备。

这个新技术是基于之前DeepMind发布了的构架,先前的构架 A3C(即异步的优势行动者评论家算法) 将一些执行单元置于游戏中,每个单元都掌握玩这个游戏当前的策略。之后,这些单元独立地进行游戏,并周期性地停止游戏,以此来分享关于当前策略的可行部分和不可行的部分。

这种IMPALA架构(Importance Weighted Actor-Learner Architecture)有两个关键性的改变——

(1)第一个是在中间有个学习单元,执行单元不与它分享游戏中哪些做法可行,哪些不可行,而是它们与它分享经验。之后,这个集中的学习单元会想出一个关于所有这些数据的合理结论。想象一下,如果一个队伍里的每个足球运动员都去告诉教练,自己在球场上尝试的哪些方法奏效,这样的确可以有作用,但是有别于只是得到这些方法,我们可以把每个队员各自的经验通过蜂群思想结合起来,然后可以得到更多更高质量的信息。

(2)另一个关键性不同是,传统强化学习会先将游戏进行一定步骤,然后停下来进行学习过程。而使用论文中的方法,我们将游戏进行和学习过程分离开来,因此就有可能发展出一种能够同时连续进行两个过程的算法。这也引发了新的问题,推荐看一下论文里特别是关于叫做V-Trace的新的off-policy校正方法的部分,当在30个不同等级和大量Atari游戏的测试中,这种新方法比起之前基于A3C架构的表现翻了一倍,这也是极好的。同时,数据使用效率也至少是十倍于后者。它产生的知识更容易被应用到其他任务中。

论文原址 https://arxiv.org/pdf/1802.01561.pdf

 

 

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款