ICLR 2024
paper
Intro
Dyna-style的model-based RL方法需要拟合环境动力学习模型进行rollout,进而产生丰富的数据用于训练policy。而对于复杂环境model error的存在容易导致低质量的数据。因此,本文提出不确定性度量的MPC用于产生动作,同时将动作的不确定性度量作为惩罚项加入到奖励,实现保守的model-rollout以及乐观的在线规划。保守的rollout避免对不确定区域进行建模,从而减轻模型误差的影响。同时它在线探索高奖励的模型不确定区域,主动减少模型误差。
method
Planner:Uncertainty-aware Policy-guided MPC
在线交互以及model rollout将采用MPC方法,算法利用model执行K条动作轨迹,然后选区累计奖励最高的轨迹的第一个动作作为最终执行动作
其中轨迹动作的样本方差作为不确信度量,并作为惩罚项加入到reward。
u
(
s
t
,
a
t
)
=
1
N
−
1
∑
n
(
T
^
θ
(
n
)
(
s
t
,
a
t
)
−
μ
′
)
2
,
μ
′
=
1
N
∑
n
T
^
θ
(
n
)
(
s
t
,
a
t
)
.
u(s_t,a_t)=\frac{1}{N-1}\sum_n(\hat{T}_\theta^{(n)}(s_t,a_t)-\mu')^2,\quad\mu'=\frac{1}{N}\sum_n\hat{T}_\theta^{(n)}(s_t,a_t).
u(st,at)=N−11n∑(T^θ(n)(st,at)−μ′)2,μ′=N1n∑T^θ(n)(st,at).
UP-MPC将用在在线交互以及model-rollout过程中,如何使用基于不确信度量的惩罚项决定了是保守探索还是乐观探索。
Conservative model rollout
model rollout过程中,对动作的选择采用Planner进行规划。通过最大化轨迹累计奖励选择动作。其中不确定度量结果作为惩罚项加入到planner的奖励中,其保守体现在
−
a
c
-a_c
−ac,通过使用这种方法,可以防止模型推出的轨迹落入模型不确定区域,同时获得奖励较高的样本。
a
=
argmax
a
t
∈
a
t
[
r
(
s
t
,
a
t
)
+
∑
i
=
1
H
p
r
(
s
^
t
+
i
,
π
(
s
^
t
+
i
)
)
−
α
c
∑
i
=
1
H
p
u
(
s
^
t
+
i
,
π
(
s
^
t
+
i
)
)
]
,
s
^
t
+
i
∼
T
^
(
⋅
∣
s
^
t
+
i
−
1
,
a
t
+
i
−
1
)
.
a=\operatorname{argmax}_{a_t\in\boldsymbol{a_t}}\left[r(s_t,a_t)+\sum_{i=1}^{H_p}r(\hat{s}_{t+i},\pi(\hat{s}_{t+i}))-\alpha_c\sum_{i=1}^{H_p}u(\hat{s}_{t+i},\pi(\hat{s}_{t+i}))\right],\hat{s}_{t+i}\sim\hat{T}(\cdot|\hat{s}_{t+i-1},a_{t+i-1}).
a=argmaxat∈at
r(st,at)+i=1∑Hpr(s^t+i,π(s^t+i))−αci=1∑Hpu(s^t+i,π(s^t+i))
,s^t+i∼T^(⋅∣s^t+i−1,at+i−1).
Optimistic environment exploration
在线交互时,类似于model rollout,不过不确信度量的权重参数为正数,实现乐观的探索高不确定区域
a
=
argmax
α
t
∈
a
t
[
r
(
s
t
,
a
t
)
+
∑
i
=
1
H
p
r
(
s
^
t
+
i
,
π
(
s
^
t
+
i
)
)
+
α
c
∑
i
=
1
H
p
u
(
s
^
t
+
i
,
π
(
s
^
t
+
i
)
)
]
,
s
^
t
+
i
∼
T
^
(
⋅
∣
s
^
t
+
i
−
1
,
a
t
+
i
−
1
)
a=\operatorname{argmax}_{\alpha_t\in\boldsymbol{a_t}}\left[r(s_t,a_t)+\sum_{i=1}^{H_p}r(\hat{s}_{t+i},\pi(\hat{s}_{t+i})){\color{red}{+}\alpha_c}\sum_{i=1}^{H_p}u(\hat{s}_{t+i},\pi(\hat{s}_{t+i}))\right],\hat{s}_{t+i}\sim\hat{T}(\cdot|\hat{s}_{t+i-1},a_{t+i-1})
a=argmaxαt∈at
r(st,at)+i=1∑Hpr(s^t+i,π(s^t+i))+αci=1∑Hpu(s^t+i,π(s^t+i))
,s^t+i∼T^(⋅∣s^t+i−1,at+i−1)
该部分将用于与环境的在线交互过程