Model-based:COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based-优快云博客

本文链接：https://blog.youkuaiyun.com/wdnmdwsmsa/article/details/137381406

本文提出了一种结合模型不确定性度量的MPC方法，用于在复杂环境中进行模型-basedRL中的保守和乐观探索。通过将动作不确定性作为惩罚项，算法能有效减轻模型误差影响，同时在线探索高奖励区域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ICLR 2024
paper

Intro

Dyna-style的model-based RL方法需要拟合环境动力学习模型进行rollout，进而产生丰富的数据用于训练policy。而对于复杂环境model error的存在容易导致低质量的数据。因此，本文提出不确定性度量的MPC用于产生动作，同时将动作的不确定性度量作为惩罚项加入到奖励，实现保守的model-rollout以及乐观的在线规划。保守的rollout避免对不确定区域进行建模，从而减轻模型误差的影响。同时它在线探索高奖励的模型不确定区域，主动减少模型误差。

method

在这里插入图片描述

Planner：Uncertainty-aware Policy-guided MPC

在这里插入图片描述

在线交互以及model rollout将采用MPC方法，算法利用model执行K条动作轨迹，然后选区累计奖励最高的轨迹的第一个动作作为最终执行动作
在这里插入图片描述
其中轨迹动作的样本方差作为不确信度量，并作为惩罚项加入到reward。
$u(s_t,a_t)=\frac{1}{N-1}\sum_n(\hat{T}_\theta^{(n)}(s_t,a_t)-\mu')^2,\quad\mu'=\frac{1}{N}\sum_n\hat{T}_\theta^{(n)}(s_t,a_t).$
UP-MPC将用在在线交互以及model-rollout过程中，如何使用基于不确信度量的惩罚项决定了是保守探索还是乐观探索。

Conservative model rollout

model rollout过程中，对动作的选择采用Planner进行规划。通过最大化轨迹累计奖励选择动作。其中不确定度量结果作为惩罚项加入到planner的奖励中，其保守体现在 $a_c$ ，通过使用这种方法，可以防止模型推出的轨迹落入模型不确定区域，同时获得奖励较高的样本。
$a=\operatorname{argmax}_{a_t\in\boldsymbol{a_t}}\left[r(s_t,a_t)+\sum_{i=1}^{H_p}r(\hat{s}_{t+i},\pi(\hat{s}_{t+i}))-\alpha_c\sum_{i=1}^{H_p}u(\hat{s}_{t+i},\pi(\hat{s}_{t+i}))\right],\hat{s}_{t+i}\sim\hat{T}(\cdot|\hat{s}_{t+i-1},a_{t+i-1}).$

Optimistic environment exploration

在线交互时，类似于model rollout，不过不确信度量的权重参数为正数，实现乐观的探索高不确定区域
$a=\operatorname{argmax}_{\alpha_t\in\boldsymbol{a_t}}\left[r(s_t,a_t)+\sum_{i=1}^{H_p}r(\hat{s}_{t+i},\pi(\hat{s}_{t+i})){\color{red}{+}\alpha_c}\sum_{i=1}^{H_p}u(\hat{s}_{t+i},\pi(\hat{s}_{t+i}))\right],\hat{s}_{t+i}\sim\hat{T}(\cdot|\hat{s}_{t+i-1},a_{t+i-1})$