CoRL 2023 \ RRL 2023
paper
Intro
文章研究了在现实机器人任务中,从高维观测数据进行强化学习的离线预训练和在线微调问题。最近的离线无模型方法成功地使用在线微调来提高智能体在数据收集策略上的性能,或适应新任务。同时,基于模型的强化学习算法在样本效率和任务复杂性方面取得了显著进展,但在微调设置中仍未得到充分利用。文章认为,现有的基于模型的离线强化学习方法由于分布偏移、非动态数据和非平稳奖励等问题,在高维领域不适合离线到在线的微调。因此,提出了一种on-policy的基于模型的方法,该方法可以通过基于模型的价值扩展和策略正则化高效地重用先前数据,同时通过控制认知不确定性来防止模型过度利用。
Method

World Model
采用VAE based的RSSM模型建模

通过联合优化ELBO对模型训练
L p θ , q θ m o d e l = E τ ∼ D [ ∑ t − ln p θ ( x t ∣ s t ) − ln p θ ( r t ∣ s t ) + D K L [ q θ ( s t ∣ x t , s t − 1 , a t − 1 ) ∣ ∣ p θ i t ( s t ∣ s t − 1 , a t − 1 ) ] ] . \mathcal{L}_{p_\theta,q_\theta}^{\mathrm{model}}=\mathbb{E}_{\tau\sim\mathcal{D}}\left[\sum_t-\ln p_\theta(x_t\mid s_t)-\ln p_\theta(r_t\mid s_t)+\mathbb{D}_{KL}[q_\theta(s_t|x_t,s_{t-1},a_{t-1})||p_\theta^{i_t}(s_t|s_{t-1},a_{t-1})]\right]. Lpθ,qθmodel=Eτ∼D[t∑−lnpθ(xt∣st)−lnpθ(rt∣st)+DKL[qθ(st∣xt,st−1,at−1)∣∣pθit(st∣st−1,at−1)]].
其中latent state采用离散形式。对动力学模型采用集成模型 { p θ i ( s t + 1 ∣ z t ) } i = 1 M \{p_\theta^i(s_{t+1}|z_t)\}_{i=1}^M {
pθi(st+1∣zt)}i=1M,执行时随机采样一个模型去优化世界模型。同时,为了防止模型被过度开发使用,采用基于认知不确定的奖励正则化
u θ ( s t , a t ) = s t d ( { l θ i ( z t + 1 ) } i = 1 M ) , r ^ θ ( s t , a t , s t + 1 ) = r θ ( s t + 1 ) − α u θ ( s t , a t ) u_\theta(s_t,a_t)=\mathrm{std}(\{l_{\theta^i}(z_{t+1})\}_{i=1}^M),\\ \widehat{r}_\theta(s_t,a_t,s_{t+1})=r_\theta(s_{t+1})-\alpha u_\theta(s_t,a_t) uθ(st,at)=std({
lθi(zt+1)}i=1M),r
θ(st,at,st+1)=rθ(st+1

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



