名人名言大全摘抄,我在谷歌大脑作业的 18 个月中,是怎样研讨强化学习的?,东太湖论坛

雷锋网 AI 科技谈论按:在强化学习范畴,谷歌大脑的研讨内容一直是业界要点重视的方针。Marc G. Bellemare 是谷歌大脑的研讨员,研讨方向为散布式强化学习、表征学习等。他将自己在谷歌大脑 18 个月中研讨阅历和心得写成了文章并进行宣布。雷锋网 AI 科技谈论全文编译如下。雷锋网

时刻回溯到 2017 年夏天,在欧洲一段时刻的离别游览中,我被其时在蒙特利尔新建立的谷歌大脑团队选用 (其时我进行长途作业)。我在家里的作业室能够看到伦敦北部贝尔塞斯公园(Belsize Park)的绝美风光,并且还曾招待了谷歌蒙特利尔的整个强化学习团队,这是真的。

从那以后,我搬到了另一个大陆,在 AI 实习生、学生研讨者和全职谷歌职工三重人物中转化。现在,谷歌团队的规划有了适当大的扩展 托尼贾(并且还在持续扩展:Marlos C. Machado也加入了咱们)。过后看来,2018 年是适当多产的一年。这篇博客回忆了这段时刻咱们的科研产出,以一个全景视角介绍了蒙特利尔谷歌大脑团队在强化学习方面研讨发展以及咱们所参与过的十分棒的协作,然后让咱们对不远的未来有了一个知道。

散布式强化学习

「它很好。但它怎么完结呢?」

在强化学习中,散布式的办法以为咱们应该猜测随机收益的散布,而不是猜测它们的希望值 (Bellemare, Dabney, Munos, ICML 2017)。可是,大多数散布式智能体依然经过将举动值 (action 萧纲特卖网value)散布提取还原为它们各自的希望被女上司镇压值,然后挑选希望值最高的操作来运转。猜测,然后提取。那么,为什么它在实践中体现得如此超卓呢?

为了答复这个问题,咱们开发了一种正式语昨日重现言来剖析散布式强化学习办法,尤炜其是依据样本的办法(Rowland 等,AISTATS 2018)。经过这一方式,咱们发现本来的散布式算法(称为 C51)隐式地最小化了概率散布之间的间隔(Cramr 间隔)。可是咱们的一些效果标明,散布式算法应该最小化散布之间的名人名言大全摘录,我在谷歌大脑作业的 18 个月中,是怎样研讨强化学习的?,东太湖论坛 Wasserstein 间隔,而不是 Cramr 间隔。咱们(我指的是 Will Dabney)用一种叫做分位数回归(quantile regress名人名言大全摘录,我在谷歌大脑作业的 18 个月中,是怎样研讨强化学习的?,东太湖论坛ion,)的技能从头批改了大部分的 C51,在必定程度上最小化了 Wasserstein 间隔。由此发作的智能体(这个称为 QR-DQN)在 Atari 2600 基准上体现出强壮的功用(Dabney et al.,AAAI 2018)。另一个令人兴奋的效果是, Mark Rowland 最近发现了名人名言大全摘录,我在谷歌大脑作业的 18 个月中,是怎样研讨强化学习的?,东太湖论坛散布式强化学习中统计量和样本之间的一个风趣的失配,这就解说了为名人名言大全摘录,我在谷歌大脑作业的 18 个月中,是怎样研讨强化学习的?,东太湖论坛什么这些算法有用,而其他算法注定会失利(Rowland et al.,2019)。

依据 Mark 对 C51 的剖析,咱们从基本原理推导出了一个散布式算法——在本例中,运用的是更简略处理的 Cramr 间隔。咱们的方针是开宣布一项能显式地对分配丢失履行梯度下降(C51 和 QR-DQN 都没有这样做)的分配算法,而终究开宣布来的是一项咱们命名为 S51 的算法(Bellemare 等人,AISTATS 2019);「S」代表「有符号的」,由于算法或许会输出有用的负概率。由于其相对简略,咱们能够证明,当与线性函数近似(linear function appr亦忱oximation)结合时,S51 能够确保收敛性。在此过程中,咱们还搜集了一些依据,证明在一些病态的比如中,猜测+提取的办法比直接猜测希望值的体现更糟糕。这是一位谈论者所说到的「更简略呈现模型过错辨认」所导致的自可是然的效果。

尔后,咱们也证明晰将猜测+提取的办法结合到表格表征中实际上是无效的,一起证明晰假如将该办法结合到线性标明中,其功用或许比预期的强化学习更差(Lyle, Castro, Bellemare, AAAI 2019)。这使咱们排除了不依赖于表征挑选的常见解说,如「散布式强化学习削减方差」或「均匀散布式猜测导致更精确的值估量」。这些解说某种程度上过错地引用了 Holmes 先生的话,一旦你排除了不或许,剩余的必定是本相:散布式强化学习一旦与深层网络结合,好像就会变得有用。

为了搜集这方面的进一步依据,咱们在 Cartpole 域中练习了智能体,要么运用固定的低维标明(一阶傅里叶基),要么运用相似的深度网络。效果(总结如下面的图表所示)适当有说服力:在固定表征的状况下,散布式办法的功用比依据预期的办法差;但运用深度表征后,它们就体现得更好了。这篇论文还标明,依据 Cramr 的办法应该输出累积散布函数(cumulative distribution function),而不是概率质量函数(probability mass function,PMFs)。

一名深度学习实践者会很自然地得出这样的定论:散布式强化学习是有用的,由于「它有助于更好地学习表征」。但这在方式上意味着什么呢?怎么证明或辩驳这种说法呢?这些问题促进咱们研讨了一个十分抢手的论题:将表征学习应用于强化学习。

表征学习

上一年夏天,Will Dabney 和我为强化学习中的表征学习规划了一个咱们称之为「苹果派」(apple pie)的试验:用一个简略的设置去研讨学习好的表征意味着什么。这个试验包括 1)一个归纳环境 (四室域);2)练习一个十分大的深度网络; 3)做出各种猜测。咱们将表征界说为从状况到 d 维特征向量的映射,之后又将这些特征向量线性映射到猜测。在一切的试验中,d 都小于状况数。名人名言大全摘录,我在谷歌大脑作业的 18 个月中,是怎样研讨强化学习的?,东太湖论坛这个设置答应咱们答复这样的问题:「当咱们练习网络猜测 X 时,得到的表征是什么?」,其间 X 或许是值函数、值散布或一些辅佐使命。

经过对这个小问题的不断探究,咱们意识到能够为表征拟定一个最优原则。该原则指出,最优表征应该最小化一切「可完结」值函数的近似差错。这儿我用「可完结」标明「由某些战略生成」(Bellemare et al.,2019)。事实上,咱们只需要考虑此类值函数的一个十分特别的子集,即对偶值函数(adversarial value functions,AVFs),以反映最优性原则的极小值特征。由于这些参数基本上是几许化的,得出的这些效果也很风趣。在整个过程中,咱们发现值函数的空间自身是高度结构化的:虽然还存在着一些不直观的特征,但它全体来看东莞阳光网是一个多面体(Dadashi et al .,2019)。

咱们运用「用于表征的 FMRI 」(见上)来可视化该办法的效果(上图;Marlos C. Machado 供给代码)。这儿,每个单元格将特征的归一化激活描绘为输入状况的函数。图中对比了网络被练习用来猜测单个值函数或多个 AVFs 时的状况。在仅运用值表征的时分,得出的效果有点不令人满意:单个特征要么在状况之间不活泼,要么是猜测值函数的副本;此外,在激活方式中还存在噪声。相比之下,AVFs 办法发作的结构很漂亮。

咱们能够运用相同的东西来承认散布式强化学习的确学习了更丰厚的表征。下图是运用 C51(左)或运用 QR-DQN(右)猜测随机战略值散布时学到的特性的可视化状况。分位数回归得到的特征供给了一系列的呼应,从方针邻近的高度峰值(左下角第二行)到相对涣散(右上角)。这两组特性都比刚刚前面说到强化学习在学习值函数时愈加结构化(前面的图左)。

作为这些效果的弥补,咱们可视化了 Atari 2600 游戏智能体中隐只为她袖手全国藏单位的激活。这些构成了与 Pablo Samuel Castro、Felipe Such、Joel Lehman 以及其他许多人在「Atari Zoo」项目中十分超卓的协作的一部分(如 et al.,Deep RL Workshop at NeurIPS, 2018)。为了着重其间一个效果,散布式算法(该算法是Hessel等人对 何琳C51 的扩展,叫做 Rainbow)学习到的卷积特性一般比非散布式 DQN 学习到的卷积特性更具体、更杂乱,如下面的 Seaquest 游戏示例所示:

相同重要的是,咱们发现猜测多个折扣率的值函数也是在 Atari 2600 游戏中制造辅佐使命的一种简略而有用的办法 (Fedus et al.,2019)。

毫无疑问,不同的强化学习办法会发作不同的表征方式,并且在深度学习和强化学习之间会发作杂乱的交互效果。假如走运的话,在接下来的一年,咱们也会找出这些表征与智能体的阅历体现之间的联系。

软件

假如你曾参与我上一年的一次讲演,你或许会看到我的讲演内容如下:

依据发行日期,时刻轴按时刻次序对 Arcade Learning Environment 供给的 60 款游戏进行摆放。每个标题标出了(片面)估量的功用最好的学习智能体:超人的(黑色格),近似人类的(红白格),最终也为游戏中的 AI 不为完结游戏,而朴实以得分为意图游戏打出了分值(灰色格)。时刻轴显现,前面标上「超人的」标签的游戏,比重要高于后边的游戏。我以为,这证明晰前期游戏要比后期游戏更简略,部分原因在于电子游戏体会的改变:从反响性游戏(Pong)改变为认知性游戏(Pitfall!)

留意,时刻表是从 2017 年年中开端的,现在有点过期了,经过调整,咱们也考虑到了其他的游戏,例如 Montezuma's Revenge 经过运用仿照洪巨仁学习(Hester et al.,2017;Aytar et al., 2018)和非参数计划(Ecofett et al.,2019)在功用上完结了巨大进步,不过即使是这样,咱们或许仍是遗漏了很少一部分有代表性的游戏。鉴于 ALE 病娇恋爱史在推进深度强化学习研讨复兴方面发挥了重要的效果,因而在强化学习范畴应该活跃寻觅「下一个 Atari」。

但这张图表也帮我说明晰另一点:ALE 现在是一个老练的基准,应该区别对待它和新呈现的应战。用 Miles Brundage的话来说便是:Atari 游戏,「假如你介意样本功率,那么它能够作为强化学习基准」。深度强化学习自身也在不断老练:想要更好地了解其时的技能,请参阅Vincent Franois-Lavet's review (2019)。在获得令人兴奋的前期成功后,深度强化学习或许预备回归根底。

这种老练的效果之一是对 ALE 论文进行二次更新,这项作业由我其时的学生 Mar湍组词los C. Machado甘肃地图 主导,新的效果与新的代码一起发布。该代码的发布解锁了额定的难王洁丽度等级(flavours),这证明新效果是对搬迁学习研讨十分有用的(Machado et al.,2018)。在这篇论文中有太多的好东名人名言大全摘录,我在谷歌大脑作业的 18 个月中,是怎样研讨强化学习的?,东太湖论坛西要列出,可是首先要评论的是怎么评价学习 Atari-playing 算法的重复性和公平性。在 Go-Explore 博客发布的 Twitter-eddies 中能够看到一个关于社区怎么承受这一点的很好的比如:经过评论之后,作者们从头运用咱们引荐的「粘性行为」评价计划来评价他们的办法。(假如你感兴趣,这是 Jeff Clune 的一条推特)。

上一年 8 月,咱们还发布了开源强化学习结构,Dopamine(白lily女装皮书:Castro et al.,2018)。咱们猪仔笠想从简略的 Dopamine 下手,坚持开发对强化学习研讨有用的一小部分中心功用。因而,结构的第一个版别由大约 12 个 Python 文件组成,并为 ALE 供给了一个单 GPU、最先进的 Rainbow 智能体。Dopa小米note2mine 2.0(2 月 6 日 Pablo Samuel Castro 的博客文章)扩展了第一个版别,更广泛地支撑离散操作域。咱们最近简直一切的强化学习研讨都运用 Dopamine。

最终相同值得一提的是,咱们最近还与 DeepMind 协作发布了一个依据抢手纸牌游戏 Hanabi(Bard et al.,2019)的人工智能办法新研讨渠道。Hanabi 是绝无仅有的,由于它结合了协作(而不是竞赛!)和部分可调查性。代码中包括一个依据 Dopamine 的智能体,因而你能够随时将代码用起朱万里来。我已经在另一篇博文中对此进行了更多的评论,但最终我想说,这是这段时刻以来我研讨的最风趣的问题之一。趁便说一下:散布式强化学习和非散布式强化学习之间好像存在很大的功用距离名人名言大全摘录,我在谷歌大脑作业的 18 个月中,是怎样研讨强化学习的?,东太湖论坛,如下面的学习曲线所示。这是一个小小的疑团。

结语

这篇文章没有评论怎么探究强化学习,虽然这个论题对我广播稿来说依然很重要。值得留意的是,经过 Adrien Ali Taiga,咱们在了解伪计数怎么协助咱们探究方面获得了一些发展(Ali Taiga, Courville, Bellemare, 2018)。很快乐看到强化学习的越来越多的研讨者们迎接应战,致力于处理 Montezuma’s Revenge 等困难的探究问题。虽然 epsilon-贪婪(epsilon-greedy)算法和熵正则化(entropy regularization)在实践中依然占有主导地位,但我以为咱们离明显进步算法样本功率的集成处理计划,也不远了。

虽然蒙特利尔市中心的景色或许与伦敦北部不尽相同,但我在谷歌大脑这段时刻的研讨阅历肯定令人兴奋。蒙特利尔和加拿大是多位世界上最优异的深度强化学习研讨人员的家园,能与这么多本地和谷歌大脑团队的人才交流,我感到很不堪荣光。

via:marcgbellemare