Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model

本文介绍了一种结合表征学习和任务学习的策略,提出在部分可观测马尔科夫决策过程(POMDP)中使用潜在变量模型进行深度强化学习。通过构建时序模型和优化ELBO,文章解决了图像任务下的挑战,并利用SAC算法进行策略优化。

NIPS 2020
paper

Intro

面对图像任务下RL存在两个挑战:表征学习以及任务学习。本文提出学习潜在变量模型并基于该模型执行RL。

Method

考虑部分可观测MDP(POMDP), 其概率图模型如图所示。该模型下智能体无法影响过去 τ \tau τ步的状态动作,而是预测未来最有动作,直至回合结束。
在这里插入图片描述
其中 O τ + 1 O_{\tau+1} Oτ+1为新引入的随机变量分布, p ( O t = 1 ∣ z t , a t ) = exp ⁡ ( r ( z t , a t ) ) p(\mathcal{O}_{t}=1|\mathbf{z}_{t},\mathbf{a}_{t})=\exp(r(\mathbf{z}_{t},\mathbf{a}_{t})) p(Ot=1∣zt,at)=exp(r(zt,at))。算法对观测以及奖励联合构建时序模型,并通过最大化似然概率 p ( x 1 : τ + 1 , O τ + 1 : T ∣ a 1 : τ ) p(\mathbf{x}_{1:\tau+1},\mathcal{O}_{\tau+1:T}|\mathbf{a}_{1:\tau}) p(x1:τ+1,Oτ+1:Ta1:τ)分布优化策略。进一步通过变分推断得到该分布的ELBO,
在这里插入图片描述
其中 r ( z t , a t ) = log ⁡ p ( O t = 1 ∣ z t , a t ) r(\mathbf{z}_t,\mathbf{a}_t)=\log p(\mathcal{O}_t=1|\mathbf{z}_t,\mathbf{a}_t) r(zt,at)=logp(Ot=1∣zt,at)
q ( z 1 : T , a τ + 1 : T ∣ x 1 : τ + 1 , a 1 : τ ) = ∏ t = 0 τ q ( z t + 1 ∣ x t + 1 , z t , a t ) ∏ t = τ + 1 T − 1 p ( z t + 1 ∣ z t , a t ) ∏ t = τ + 1 T π ( a t ∣ x 1 : t , a 1 : t − 1 ) q(\mathbf{z}_{1:T},\mathbf{a}_{\tau+1:T}|\mathbf{x}_{1:\tau+1},\mathbf{a}_{1:\tau})=\prod_{t=0}^\tau q(\mathbf{z}_{t+1}|\mathbf{x}_{t+1},\mathbf{z}_t,\mathbf{a}_t)\prod_{t=\tau+1}^{T-1}p(\mathbf{z}_{t+1}|\mathbf{z}_t,\mathbf{a}_t)\prod_{t=\tau+1}^T\pi(\mathbf{a}_t|\mathbf{x}_{1:t},\mathbf{a}_{1:t-1}) q(z1:T,aτ+1:Tx1:τ+1,a1:τ)=t=0τq(zt+1x

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值