NIPS 2020
paper
Intro
面对图像任务下RL存在两个挑战:表征学习以及任务学习。本文提出学习潜在变量模型并基于该模型执行RL。
Method
考虑部分可观测MDP(POMDP), 其概率图模型如图所示。该模型下智能体无法影响过去 τ \tau τ步的状态动作,而是预测未来最有动作,直至回合结束。

其中 O τ + 1 O_{\tau+1} Oτ+1为新引入的随机变量分布, p ( O t = 1 ∣ z t , a t ) = exp ( r ( z t , a t ) ) p(\mathcal{O}_{t}=1|\mathbf{z}_{t},\mathbf{a}_{t})=\exp(r(\mathbf{z}_{t},\mathbf{a}_{t})) p(Ot=1∣zt,at)=exp(r(zt,at))。算法对观测以及奖励联合构建时序模型,并通过最大化似然概率 p ( x 1 : τ + 1 , O τ + 1 : T ∣ a 1 : τ ) p(\mathbf{x}_{1:\tau+1},\mathcal{O}_{\tau+1:T}|\mathbf{a}_{1:\tau}) p(x1:τ+1,Oτ+1:T∣a1:τ)分布优化策略。进一步通过变分推断得到该分布的ELBO,

其中 r ( z t , a t ) = log p ( O t = 1 ∣ z t , a t ) r(\mathbf{z}_t,\mathbf{a}_t)=\log p(\mathcal{O}_t=1|\mathbf{z}_t,\mathbf{a}_t) r(zt,at)=logp(Ot=1∣zt,at)
q ( z 1 : T , a τ + 1 : T ∣ x 1 : τ + 1 , a 1 : τ ) = ∏ t = 0 τ q ( z t + 1 ∣ x t + 1 , z t , a t ) ∏ t = τ + 1 T − 1 p ( z t + 1 ∣ z t , a t ) ∏ t = τ + 1 T π ( a t ∣ x 1 : t , a 1 : t − 1 ) q(\mathbf{z}_{1:T},\mathbf{a}_{\tau+1:T}|\mathbf{x}_{1:\tau+1},\mathbf{a}_{1:\tau})=\prod_{t=0}^\tau q(\mathbf{z}_{t+1}|\mathbf{x}_{t+1},\mathbf{z}_t,\mathbf{a}_t)\prod_{t=\tau+1}^{T-1}p(\mathbf{z}_{t+1}|\mathbf{z}_t,\mathbf{a}_t)\prod_{t=\tau+1}^T\pi(\mathbf{a}_t|\mathbf{x}_{1:t},\mathbf{a}_{1:t-1}) q(z1:T,aτ+1:T∣x1:τ+1,a1:τ)=t=0∏τq(zt+1∣x

本文介绍了一种结合表征学习和任务学习的策略,提出在部分可观测马尔科夫决策过程(POMDP)中使用潜在变量模型进行深度强化学习。通过构建时序模型和优化ELBO,文章解决了图像任务下的挑战,并利用SAC算法进行策略优化。
最低0.47元/天 解锁文章
1066

被折叠的 条评论
为什么被折叠?



