Distributional RL with Quantile Regression论文翻译

毕业设计需要选择一篇外文论文进行翻译,翻译完成后正好分享到这里。因为这一篇论文比较难懂,也是比较重要的一篇论文,所以选择了这一篇。有些地方我也还不确定,翻译错误的地方欢迎指正~
论文原文:https://arxiv.org/pdf/1710.10044.pdf

基于分位数回归的分布强化学习

Will Dabney    Mark Rowland    Marc G. Bellemare    Remi Munos

摘要

在强化学习中,智能体通过采取动作并观察下一个时刻的状态和奖励来与环境交互。当概率采样的时候,状态转移方程、奖励和动作都会在观察到的长期回报的时候引起随机性。传统强化学习算法会对此随机性求期望来估计价值函数值。在本文中,我们以最近的工作为基础,该工作提出一种对强化学习使用了分布方法。在该方法中,对价值函数的返回值的分布进行了直接建模,而不是仅仅估计返回值的期望。也就是说,我们研究了学习价值分布而不是价值函数的方法。我们给出的结果弥合了Bellemare,Dabney和Munos (2017) 给出的理论和算法结果之间的许多差距。首先,我们将现有结果扩展到拟合分布的背景下。其次,我们提出了与我们的理论公式一致的一种新的分布强化学习算法。最后,我们在Atari 2600游戏上评估了该新算法,发现它大大优于DQN的许多最新改进后的算法,包括和本论文相关的分布算法C51。

引入

在强化学习中,状态 s s s对应的动作 a a a的价值描述了从该状态开始,选择动作 a a a,然后根据预先设定的策略所获得的返回值期望或奖励的加权和。因为最优策略得到该价值足以执行最优动作,所以这种算法是通过经典的基于价值的方法,例如SARSA (Rummery & Niranjan, 1994) 和Q-Learning (Watkins & Dayan, 1992),这些算法使用了Bellman方程 (Bellman, 1957) 以有效地推导价值。

最近,Bellemare, Dabney和Munos (2017) 证明了价值函数返回值的分布可以通过类似贝尔曼方程的分布公式来描述,与风险敏感的强化学习中的先前工作成果相对应 (Heger, 1994;Morimura et al., 2010;Chow et al., 2015)。但是,在先前的工作中,作者主张对这种价值分布本身进行建模是有效果的。他们的主张是通过展示一种分布强化学习算法C51来实现的,该算法刷新了Atari 2600游戏基准的最高分数 (Bellemare et al., 2013)。

C51算法相关工作的理论贡献之一就是证明了分布贝尔曼算子是概率分布之间Wasserstein度量最大值形式下的收缩。在这种情况下,Wasserstein度量比较特殊,因为它不会受到进行贝尔曼更新时出现的互斥支撑集(Arjovsky, Chintala & Bottou, 2017) 的问题。然而这个结果并不能直接引出一种实用的算法:正如作者所指出的那样,并且由Bellemare等人(2017) 进一步研究,Wasserstein度量作为一种损失函数,通常无法使用随机梯度下降法将其最小化。

这种否定的结果导致了对于是否有可能设计出一种利用收缩结果的在线分布强化学习算法的疑问。取而代之的是,C51算法首先提出了有启发性的使用投影的一步,然后最小化投影后的贝尔曼更新值和预测值之间的KL散度。因此,这项工作在我们对分布强化学习的理解上留下了理论到应用上的空白,这使得C51算法的突出表现难以解释。因此,Wasserstein度量上端到端的分布算法的存在仍然是一个悬而未决的问题。

在本文中,我们肯定地回答了这个问题。 通过分位数回归的理论 (Koenker, 2005),我们证明了存在一种算法,适用于随机拟合的背景,该算法可以使用Wasserstein度量进行分布强化学习。我们的方法依赖于以下技术:

  • 我们把C51算法中的参数“转置”了:C51算法使用了N个固定位置来拟合分布并调整其概率,我们将固定的均匀概率分配给了N个可调整的位置。
  • 我们证明了分位数回归可以用于随机调整概率分布的位置,来最小化和目标分布的Wasserstein距离。
  • 我们正式证明了整体算法的收缩映射结果,并使用这些结果得出我们的方法可以像预想的那样在Wasserstein度量下端到端地执行分布强化学习算法的结果。

尽管仍然通过最大化期望来发挥作用,最初的分布算法的主要兴趣在于其最先进的表现。人们自然会期望直接将Wasserstein度量最小化而不是其拟合果会产生更好的结果。我们为我们提出的方法 (QR-DQN) 推导了一种类似Q-Learning的算法,并将其应用于同一套Atari 2600游戏,发现该模型可以实现更好的性能。通过使用分位数回归的平滑版本,Huber分位数回归,我们的模型的分数中位数已经比C51算法提高了33%。

分布强化学习

我们通过马尔可夫决策过程 (MDP) ( X , A , R , P , γ ) (\mathcal{X}, \mathcal{A},R,P,γ) (X,A,R,P,γ) (Puterman, 1994) 来对智能体和环境之间的交互进行建模,其中 X \mathcal{X} X A \mathcal{A} A 为状态和动作空间,R为随机变量奖励函数 P ( x ′ ∣ x , a ) P(x' |x,a) P(xx,a),即在采取动作 a a a 之后从状态 x x x 转换为状态 x ′ x' x 的概率,且有衰减因子 γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ[0,1)。策略 π ( ⋅ ∣ x ) \pi (\cdot|x) π(x) 将每个状态 x ∈ X x \in \mathcal{X} xX 映射到 A \mathcal{A} A 上的分布。

对于固定的策略 π \pi π,返回值 Z π = ∑ t = 0 ∞ γ t R t Z^\pi = \sum_{t=0}^\infty \gamma^t R_t Zπ=t=0γtRt是一个随机变量,表示沿着一个状态轨迹所观察到的衰减奖励之和。标准的强化学习算法会预测 Z π Z^\pi Zπ的期望价值,即价值函数:
V π ( x ) : = E [ Z π ( x ) ] = E [ ∑ t = 0 ∞ γ t R ( x t , a t ) ∣ x 0 = x ] (1) V^\pi (x) := \mathbb{E}[Z^\pi (x)] = \mathbb{E} [\sum_{t=0}^\infty \gamma^t R(x_t, a_t) | x_0=x] \tag{1} Vπ(x):=E[Zπ(x)]=E[t=0γtR(xt,at)x0=x](1)相似地,许多强化学习算法会估计动作-价值函数:
Q π ( x , a ) : = E [ Z π ( x , a ) ] = E [ ∑ t = 0 ∞ γ t R ( x t , a t ) ] (2) Q^\pi(x,a) := \mathbb{E}[Z^\pi (x,a)]=\mathbb{E}[\sum_{t=0}^\infty \gamma^t R(x_t, a_t)] \tag{2} Qπ(x,a):=E[Zπ(x,a)]=E[t=0γtR(xt,at)](2) x t ∼ P ( ⋅ ∣ x t − 1 , a t − 1 ) , a t ∼ π ( ⋅ ∣ x t ) , x 0 = x , a 0 = a x_t\sim P(\cdot|x_{t-1}, a_{t-1}), a_t\sim \pi (\cdot | x_t), x_0=x, a_0=a xtP(xt1,at1),atπ(xt),x0=x,a0=a

Q π Q^\pi Qπ ϵ \epsilon ϵ-greedy策略会有 ϵ \epsilon ϵ的概率以均匀分布随机选择动作,否则根据 arg max ⁡ a Q π ( x , a ) \argmax_a Q^\pi (x,a) aargmaxQπ(x,a)进行选择。

在分布强化学习中,价值函数返回值的分布(即 Z π Z^\pi Zπ的概率分布)起着核心作用并取代了价值函数。我们将通过其随机变量来指代价值分布。当我们说到价值函数是价值分布的期望时,指的是价值函数是在价值分布的所有内在随机性源头 (Goldstein, Misra & Courtage, 1981) 上得到的期望价值。这突出表明,价值分布并不是被设计来捕获价值函数估计值中的不确定性 (Dearden, Friedman and Russell, 1998;Engel, Mannor and Meir, 2005),或者参数不确定性,而是马尔可夫决策过程中潜在的返回值的随机性。

时序差分(TD)方法通过使用贝尔曼算子进行动态规划来逐步优化 Q π Q^\pi Qπ的估计价值,从而显著加快了学习过程 (Bellman, 1957):
T π Q ( x , a ) = E [ R ( x , a ) ] + γ E P , π [ Q ( x ′ , a ′ ) ] \Tau^\pi Q(x,a)=\mathbb{E} [R(x,a)]+\gamma \mathbb{E}_{P, \pi} [Q(x', a')] TπQ(x,a)=E[R(x,a)]+γEP,π[Q(x,a)]同样地,价值分布可以使用分布贝尔曼算子,通过动态规划进行计算 (Bellemare, Dabney & Munos, 2017),
T π Z ( x , a ) : = D R ( x , a ) + γ Z ( x ′ , a ′ ) (3) \Tau^\pi Z(x,a) \overset{D}{:=} R(x,a) + \gamma Z(x', a') \tag{3} TπZ(x,a):=DR(x,a)+γZ(x,a)(3) x ′   P ( ⋅ ∣ x , a ) , a ′ ∼ π ( ⋅ ∣ x ′ ) x'~P(\cdot |x,a) , a'\sim \pi(\cdot | x') x P(x,a),aπ(x) 其中 Y : = D U Y \overset{D}{:=} U Y:=DU表示概率分布相等,即随机变量Y与随机变量U服从相同的概率分布。

C51算法使用离散分布对 Z π ( x , a ) Z^\pi (x,a) Zπ(x,a)进行建模,该离散分布的支撑集在固定步骤位置 z 1 ≤ ⋯ ≤ z N z_1 \leq \cdots \leq z_N z1zN,像梳子一样均匀分布在预先设定的间隔上。该分布的参数是与每个位置 z i z_i zi相关联的概率 q i q_i qi,并表示成logits。在给定当前价值分布的情况下,C51算法应用投影步骤 Φ \Phi Φ将目标 T π Z \Tau^\pi Z TπZ映射到其有限元支撑集上,然后执行Kullback-Leibler (KL) 最小化步骤 (请参见图1)。C51在Atari 2600游戏上达到了最领先的性能,但与Bellemare,Dabney和Munos (2017) 的理论结果明显脱节。现在,我们先回顾这些结果,然后再将它们推广到拟合分布的情况。

Wasserstein度量

对于 p ∈ [ 1 , ∞ ] p\in [1,\infty ] p[1,] p p p-Wasserstein度量 W p W_p Wp也被称为Mallows度量 (Bickel & Freedman, 1981),当 p = 1 p=1 p=1时,也被称为Earth Mover’s Distance (EMD) (Levina & Bickel, 2001)。Wasserstein度量是一种概率分布之间的积分概率度量。 p p p-Wasserstein距离的特征是累积分布函数逆函数的 L p L_p Lp度量 (Müller, 1997)。也就是说,分布U和Y之间的 p p p-Wasserstein度量由下式给出:
W p ( U , Y ) = ( ∫ 0 1 ∣ F Y − 1 ( ω ) − F U − 1 ( ω ) ∣ p ) 1 / p (4) W_p(U, Y)= \left( \int_0^1 |F_Y^{-1}(\omega) - F_U^{-1}(\omega) |^p \right) ^{1/p} \tag{4} Wp(U,Y)=(01FY1(ω)FU1(ω)p)1/p(4)对于 p = ∞ p=\infty p=,存在:
W ∞ ( U , Y ) = sup ⁡ ω ∈ [ 0 , 1 ] ∣ F Y − 1 ( ω ) − F U − 1 ( ω ) ∣ W_{\infty}(U, Y) = \sup_{\omega \in [0,1]} |F_Y^{-1}(\omega) - F_U^{-1}(\omega) | W(U,Y)=ω[0,1]supFY1(ω)FU1(ω)其中对于随机变量 Y Y Y,累积分布函数逆函数 F Y − 1 F_Y^{-1} FY1
F Y − 1 ( ω ) : = inf ⁡ { y ∈ R : ω ≤ F Y ( y ) } (5) F_Y^{-1}(\omega) := \inf \{ y \in \R: \omega \leq F_Y(y) \} \tag{5} FY1(ω):=inf{ yR:ωFY(y)}(5)其中 F Y ( y ) = Pr ⁡ ⁡ ( Y ≤ y ) F_Y (y)=\Pr⁡(Y≤y) FY(y)=Pr(Yy)是随机变量 Y Y Y的累积分布函数,图2展示了两个累积分布函数之间的1-Wasserstein距离。

Wasserstein度量具有关注结果之间的潜在度量距离的优秀特质,因此在最近成为越来越多研究的重点 (Arjovsky, Chintala & Bottou, 2017; Bellemare et al., 2017)。与Kullback-Leibler散度不同,Wasserstein度量是一个真实的概率度量,它同时考虑了各种结果事件的概率以及两者之间的距离。这些特性使Wasserstein度量非常适合于结果的潜在相似性比精确匹配的似然性更重要的领域。

分布贝尔曼算子的收敛性

在分布强化学习中,设 Z Z Z为有限时间步下的动作-价值分布空间:
Z = { Z : X × A → ρ ( R ) ∣ E [ ∣ Z ( x , a ) ∣ p ] < ∞ , ∀ ( x , a ) , p ≥ 1 } \mathcal{Z} = \{ Z: \mathcal{X} \times \mathcal{A} \rightarrow \rho(\R) | \mathbb{E}[|Z(x,a)|^p] < \infty, \forall (x,a), p \geq 1 \} Z={ Z:X×Aρ(R)E[Z(x,a)p]<,(x,a),p1}对于两个动作-价值分布 Z 1 , Z 2 ∈ Z Z_1,Z_2 \in Z Z1,Z2Z,我们使用Wasserstein度量的最大值形式,由Bellemare, Dabney和Munos在2017年提出:
d ‾ p ( Z 1 , Z 2 ) : = sup ⁡ x , a W p ( Z 1 ( x , a ) , Z 2 ( x , a ) ) (6) \overline{d}_p (Z_1, Z_2) := \sup_{x,a} W_p(Z_1(x,a), Z_2(x,a)) \tag{6} dp(Z1,Z2):=x,asupWp(Z1(x,a),Z2(x,a))(6)可以得到 d ‾ p \overline d_p dp是价值分布上的度量手段,并且分布贝尔曼算子 T π \Tau^\pi Tπ d ‾ p \overline d_p dp上的收缩,下面给出证明。

引理1 T π \Tau^\pi Tπ是一个 γ \gamma γ-收缩:给定 ∀ Z 1 , Z 2 ∈ Z \forall Z_1,Z_2 \in Z Z1,Z2Z,有 d ‾ p ( T π Z 1 , T π Z 2 ) ≤ γ d ‾ p ( Z 1 , Z 2 ) \overline d_p (\Tau^\pi Z_1,\Tau^\pi Z_2) \leq \gamma \overline d_p (Z_1,Z_2) dp(TπZ1,TπZ2)γdp(Z1,Z2)

引理1告诉我们 d ‾ p \overline d_p dp对于学习分布强化学习算法的行为是一种有效的测量手段,尤其是证明到定点 Z π Z^\pi Zπ的收敛性。并且,该引理还提出了一种实际中有效学习价值分布的方法是去最小化分布 Z Z Z和它的贝尔曼更新值 T π Z \Tau^\pi Z TπZ之间的Wasserstein距离,和时序差分法尝试迭代减小 Q Q Q T Q ΤQ TQ之间的 L 2 L^2 L2距离类似。

不幸的是,另外一个发现表明我们不能在一般情况下把Wasserstein度量当作损失函数,使用随机梯度下降法来最小化。

定理1 Y ^ m ≔ 1 m ∑ i = 1 m δ Y i \hat Y_m ≔ \frac{1}{m} \sum_{i=1}^m \delta_{Y_i} Y^m:=m1i=1mδYi 是从伯努利分布 B B B中随机抽样的 Y 1 , ⋯   , Y m Y_1, \cdots ,Y_m Y1,,Ym获得的经验分布,设 B μ B_\mu Bμ为参数 μ \mu μ的伯努利分布, μ \mu μ为随机变量取值为1的概率,那么样本的期望方差的最小值在总体上和真正的Wasserstein损失函数最小值是不同的,也就是说:
arg min ⁡ μ E Y 1 : m [ W p ( Y ^ m , B m u ) ] ≠ arg min ⁡ μ W p ( B , B μ ) \argmin_\mu \mathbb{E}_{Y_1:m} [W_p(\hat Y_m, B_mu)] \neq \argmin_\mu W_p(B, B_\mu) μargminEY1:m[Wp(Y^m,Bmu)]=μargminWp(B,Bμ)在实际应用中,这个问题变得更加明显,因为价值分布只能近似求得。至关重要的是,C51算法不能保证最小化任何 p p p-Wasserstein度量。这种理论和应用的分歧在分布强化学习中不仅局限于C51算法。Morimura等人使用高斯和拉普拉斯分布的均值和度量来参数化价值分布,并且最小化目标值 T π Z \Tau^\pi Z TπZ和预测值 Z Z Z之间的KL散度。他们的工作展示了这种方式学习的价值分布是足够实现风险敏感的Q-Learning模型的,然而他们的方法推导出的理论保证都只能是渐进的;贝尔曼算子在KL散度下,最好的情况是不会增长的。

拟合最小Wasserstein度量

C51算法在每个状态下拟合分布的方法是把使用随机变量参数化后的概率 q 1 , ⋯   , q N q_1, \cdots ,q_N q1,,qN添加到固定位置 z 1 ≤ ⋯ ≤ z N z_1 \leq \cdots \leq z_N z1zN 。我们的方法转置了这种参数化的方式,考虑固定的概率和可变的位置。也就是说,我们用均匀的权重,使得 q i = 1 N , i = 1 , ⋯ , N q_i= \frac{1}{N},i=1,⋯,N qi=N1,i=1,,N

我们的新拟合方法的目的是可以高效地估计目标分布的分位数。因此,我们把它叫做“分位数回归”,并设 Z Q Z_Q ZQ为固定 N N N个位置的分位数回归空间。我们把和这种分布有关的累积分布函数(也就是该累积分布函数呈现的离散值)称为 τ 1 , ⋯ , τ N \tau_1,⋯,\tau_N τ1,,τN,使得 τ i = i / N τ_i=i/N τi=i/N对于 i = 1 , ⋯ , N i=1,⋯,N i=1,,N且设 τ 0 = 0 \tau_0=0 τ0=0

正式来说,设 θ : X × A → R N θ:X×A→\R^N θ:X×ARN为参数模型,设一个分位数回归为 Z θ ∈ Z Q Z_θ \in Z_Q ZθZQ,把每一对状态-动作 ( x , a ) (x,a) (x,a)映射到一个均匀概率分布分布的支撑集上 θ i ( x , a ) {\theta_i (x,a)} θi(x,a),也就是:
Z θ ( x , a ) : = 1 N ∑ i = 1 N δ θ i ( x , a ) (7) Z_\theta(x,a) := \frac{1}{N} \sum_{i=1}^N \delta_{\theta_i (x,a)} \tag{7} Zθ(x,a):=N1i=1Nδθi(x,a)(7)其中 θ z \theta_z θz表示狄拉克函数,且 z ∈ R z \in \R zR

和最初的参数化方法相比,参数化分位数回归的优点有三个:首先,(1) 我们不再限制于支撑集提前设定好的范围或者统一的解法,这样会导致当状态对应的价值函数返回值的范围很大时,我们会得到明显更准确的预测值。这也让 (2)我们可以丢弃掉C51算法中麻烦的投影步骤,因为不再存在不相交支撑集的问题了。同时,这样也消除掉了应用算法到新任务的时候,需要新领域的知识来设定返回值的界限。最后,(3)这种重参数化方法让我们可以最小化Wasserstein损失函数,却不会得到有偏的梯度,尤其是使用分位数回归的时候。

拟合分位数

在强化学习中,众所周知使用函数拟合方法会导致学习过程中的不稳定 (Tsitsiklis & Van Roy, 1997)。尤其,映射到拟合空间的贝尔曼更新值可能不再是收缩了。在我们的例子中,我们分析了分布贝尔曼更新值,并证明了组合后的算子是收缩。

分位数投影 我们对量化把任意价值分布 Z ∈ Z Z\in \mathcal{Z} ZZ映射到 Z Q Z_Q ZQ上很感兴趣,也就是:
Π W 1 Z : = arg min ⁡ Z θ ∈ Z Q W 1 ( Z , Z θ ) \Pi_{W_1} Z:= \argmin_{Z_{\theta} \in Z_Q} W_1 (Z, Z_{\theta}) ΠW1Z:=ZθZQ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值