O2O : MOTO: Offline to Online Fine-tuning for Model-Based Reinforcement Learning

CoRL 2023 \ RRL 2023
paper

Intro

文章研究了在现实机器人任务中,从高维观测数据进行强化学习的离线预训练和在线微调问题。最近的离线无模型方法成功地使用在线微调来提高智能体在数据收集策略上的性能,或适应新任务。同时,基于模型的强化学习算法在样本效率和任务复杂性方面取得了显著进展,但在微调设置中仍未得到充分利用。文章认为,现有的基于模型的离线强化学习方法由于分布偏移、非动态数据和非平稳奖励等问题,在高维领域不适合离线到在线的微调。因此,提出了一种on-policy的基于模型的方法,该方法可以通过基于模型的价值扩展和策略正则化高效地重用先前数据,同时通过控制认知不确定性来防止模型过度利用。

Method

在这里插入图片描述

World Model

采用VAE based的RSSM模型建模
在这里插入图片描述
通过联合优化ELBO对模型训练
L p θ , q θ m o d e l = E τ ∼ D [ ∑ t − ln ⁡ p θ ( x t ∣ s t ) − ln ⁡ p θ ( r t ∣ s t ) + D K L [ q θ ( s t ∣ x t , s t − 1 , a t − 1 ) ∣ ∣ p θ i t ( s t ∣ s t − 1 , a t − 1 ) ] ] . \mathcal{L}_{p_\theta,q_\theta}^{\mathrm{model}}=\mathbb{E}_{\tau\sim\mathcal{D}}\left[\sum_t-\ln p_\theta(x_t\mid s_t)-\ln p_\theta(r_t\mid s_t)+\mathbb{D}_{KL}[q_\theta(s_t|x_t,s_{t-1},a_{t-1})||p_\theta^{i_t}(s_t|s_{t-1},a_{t-1})]\right]. Lpθ,qθmodel=EτD[tlnpθ(xtst)lnpθ(rtst)+DKL[qθ(stxt,st1,at1)∣∣pθit(stst1,at1)]].
其中latent state采用离散形式。对动力学模型采用集成模型 { p θ i ( s t + 1 ∣ z t ) } i = 1 M \{p_\theta^i(s_{t+1}|z_t)\}_{i=1}^M { pθi(st+1zt)}i=1M,执行时随机采样一个模型去优化世界模型。同时,为了防止模型被过度开发使用,采用基于认知不确定的奖励正则化
u θ ( s t , a t ) = s t d ( { l θ i ( z t + 1 ) } i = 1 M ) , r ^ θ ( s t , a t , s t + 1 ) = r θ ( s t + 1 ) − α u θ ( s t , a t ) u_\theta(s_t,a_t)=\mathrm{std}(\{l_{\theta^i}(z_{t+1})\}_{i=1}^M),\\ \widehat{r}_\theta(s_t,a_t,s_{t+1})=r_\theta(s_{t+1})-\alpha u_\theta(s_t,a_t) uθ(st,at)=std({ lθi(zt+1)}i=1M),r θ(st,at,st+1)=rθ(st+1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值