QUOTA:The Quantile Option Architecture for Reinforcement Learning
今天!我们要介绍的是来自于Alberta大学与华为诺亚实验室合作的一项研究,该研究是对分布强化学习中探索策略的一个改进,其中所蕴含的分布强化学习框架下的探索思想非常值得学习,可以说是大大拓展了我的视野。这里说个题外话,最近中美贸易摩擦导致华为遭到美国的严厉打击,众多科技公司与大学都宣布终止与华为的合作,我认为这对固然会对华为带来冲击,然而这也反映了美国在害怕华为。如今的华为已经成为中国在国际上的一个科技力量的象征,我相信华为一定能挺过这道坎,毕竟每年那么多研发经费不是白花的,华为的诺亚实验室也是为了这一天而存在的。也许这也是一个华为摆脱外国技术支持,实现完全独立自主的一个契机,华为加油!最后许个愿,希望我华为实习生能拿到offer吧,跪求…言归正传,接下来我们就来领略QUOTA的魅力吧。
论文总览
首先来阐述一下论文大概讲了些什么吧。回想一下分布强化学习(不太了解的同学请参考我的博客分布强化学习),QR-DQN算法学习的不再是未来期望收益的均值,而是概率分布,并且算法采用的一系列分位数来近似表示这些概率分布。但是在进行决策时,算法依据的依然是概率分布的均值,你们不觉得这给人一种大材小用的感觉吗?既然得到了回报的概率分布,那么应该有一种更好的方法来使用它进行决策。QUOTA就找到一种物尽其用的方法。
不同于传统的使用动作值均值的贪婪方法,QUOTA根据动作值分布中的特定分位数来进行贪婪地选择动作。在风险敏感强化学习(risk-sensitive RL)中存在两个概念:1.乐观(optimistic)探索策略:基于高的分位数来选择动作,即哪个动作的乐观的估计值越高选哪个动作。2.悲观(pessimistic)探索策略:基于低的分位数来选择动作,即哪个动作的悲观的估计值越高选哪个动作。乐观探索策略趋向于激进地行事,而悲观探索策略偏向于保守地行事。这两种行事风格有他们特定的应用场景,在某些场景下它们能够带来很好的收益,但是在某些场景下,它们又会带来糟糕的表现。对于这一点,文章中使用了两个简单的马尔科夫过程进行了形象的阐释,下文具体展开。
这就引发了我们的思考:也许在一个任务中,我们有时候需要采用激进的策略,而有的时候需要采用保守的策略,通俗地说,就是做事要张弛有度,懂得能屈能伸,以退为进。QUOTA就达到了“能屈能伸”的境界,可以根据系统状态的不同来采取不同风格的策略来选择动作。那么,QUOTA是如何做到这一点的呢?答案就是通过选项框架(option framework)技术,在下文会介绍。QUOTA通过学习一个更高级别的策略来决定选择使用哪个分位数来进行动作选择。这样,不同的分位数函数就成为了不同的选项,论文将其命名为分位数选项(quantile option)。QUOTA通过在学习过程中自适应地选择乐观与悲观的探索策略,能有效地提高算法的性能。
option
接下来介绍一下,QUOTA中使用的关键技术——option。每个option ω ∈ Ω \omega \in \Omega ω∈Ω可以由一个三元组 ( I ω , π ω , β ω ) \left ( I_{\omega },\pi _{\omega },\beta _{\omega } \right ) (Iω,πω,βω)来表示,其中 I ω ⊆ S I_{\omega }\subseteq S Iω⊆S表示option ω \omega ω 的初始化状态集合,相当于option的应用范围。我们使用 π ω : S × A → [ 0 , 1 ] \pi _{\omega }:S\times A\rightarrow \left [ 0,1 \right ] πω:S×A→[0,1]表示 ω \omega ω 的intra-option策略。一旦智能体被指定了option ω \omega ω ,那么他就按照 π ω \pi _{\omega } πω来选择动作。我们使用 β ω : S → [ 0 , 1 ] \b