Model-based:COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based

本文提出了一种结合模型不确定性度量的MPC方法,用于在复杂环境中进行模型-basedRL中的保守和乐观探索。通过将动作不确定性作为惩罚项,算法能有效减轻模型误差影响,同时在线探索高奖励区域。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ICLR 2024
paper

Intro

Dyna-style的model-based RL方法需要拟合环境动力学习模型进行rollout,进而产生丰富的数据用于训练policy。而对于复杂环境model error的存在容易导致低质量的数据。因此,本文提出不确定性度量的MPC用于产生动作,同时将动作的不确定性度量作为惩罚项加入到奖励,实现保守的model-rollout以及乐观的在线规划。保守的rollout避免对不确定区域进行建模,从而减轻模型误差的影响。同时它在线探索高奖励的模型不确定区域,主动减少模型误差。

method

在这里插入图片描述

Planner:Uncertainty-aware Policy-guided MPC

在这里插入图片描述

在线交互以及model rollout将采用MPC方法,算法利用model执行K条动作轨迹,然后选区累计奖励最高的轨迹的第一个动作作为最终执行动作
在这里插入图片描述
其中轨迹动作的样本方差作为不确信度量,并作为惩罚项加入到reward。
u ( s t , a t ) = 1 N − 1 ∑ n ( T ^ θ ( n ) ( s t , a t ) − μ ′ ) 2 , μ ′ = 1 N ∑ n T ^ θ ( n ) ( s t , a t ) . u(s_t,a_t)=\frac{1}{N-1}\sum_n(\hat{T}_\theta^{(n)}(s_t,a_t)-\mu')^2,\quad\mu'=\frac{1}{N}\sum_n\hat{T}_\theta^{(n)}(s_t,a_t). u(st,at)=N11n(T^θ(n)(st,at)μ)2,μ=N1nT^θ(n)(st,at).
UP-MPC将用在在线交互以及model-rollout过程中,如何使用基于不确信度量的惩罚项决定了是保守探索还是乐观探索。

Conservative model rollout

model rollout过程中,对动作的选择采用Planner进行规划。通过最大化轨迹累计奖励选择动作。其中不确定度量结果作为惩罚项加入到planner的奖励中,其保守体现在 − a c -a_c ac,通过使用这种方法,可以防止模型推出的轨迹落入模型不确定区域,同时获得奖励较高的样本。
a = argmax ⁡ a t ∈ a t [ r ( s t , a t ) + ∑ i = 1 H p r ( s ^ t + i , π ( s ^ t + i ) ) − α c ∑ i = 1 H p u ( s ^ t + i , π ( s ^ t + i ) ) ] , s ^ t + i ∼ T ^ ( ⋅ ∣ s ^ t + i − 1 , a t + i − 1 ) . a=\operatorname{argmax}_{a_t\in\boldsymbol{a_t}}\left[r(s_t,a_t)+\sum_{i=1}^{H_p}r(\hat{s}_{t+i},\pi(\hat{s}_{t+i}))-\alpha_c\sum_{i=1}^{H_p}u(\hat{s}_{t+i},\pi(\hat{s}_{t+i}))\right],\hat{s}_{t+i}\sim\hat{T}(\cdot|\hat{s}_{t+i-1},a_{t+i-1}). a=argmaxatat r(st,at)+i=1Hpr(s^t+i,π(s^t+i))αci=1Hpu(s^t+i,π(s^t+i)) ,s^t+iT^(s^t+i1,at+i1).

Optimistic environment exploration

在线交互时,类似于model rollout,不过不确信度量的权重参数为正数,实现乐观的探索高不确定区域
a = argmax ⁡ α t ∈ a t [ r ( s t , a t ) + ∑ i = 1 H p r ( s ^ t + i , π ( s ^ t + i ) ) + α c ∑ i = 1 H p u ( s ^ t + i , π ( s ^ t + i ) ) ] , s ^ t + i ∼ T ^ ( ⋅ ∣ s ^ t + i − 1 , a t + i − 1 ) a=\operatorname{argmax}_{\alpha_t\in\boldsymbol{a_t}}\left[r(s_t,a_t)+\sum_{i=1}^{H_p}r(\hat{s}_{t+i},\pi(\hat{s}_{t+i})){\color{red}{+}\alpha_c}\sum_{i=1}^{H_p}u(\hat{s}_{t+i},\pi(\hat{s}_{t+i}))\right],\hat{s}_{t+i}\sim\hat{T}(\cdot|\hat{s}_{t+i-1},a_{t+i-1}) a=argmaxαtat r(st,at)+i=1Hpr(s^t+i,π(s^t+i))+αci=1Hpu(s^t+i,π(s^t+i)) ,s^t+iT^(s^t+i1,at+i1)

该部分将用于与环境的在线交互过程

伪代码

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值