Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)

置顶 lotylotylotyloty

已于 2023-03-27 09:24:26 修改

阅读量2k

点赞数 16

分类专栏： Reinforcement-Learning Machine-Learning 文章标签：人工智能机器学习深度学习

于 2023-03-25 17:10:30 首次发布

本文链接：https://blog.youkuaiyun.com/lvoutongyi/article/details/129754201

版权

Reinforcement-Learning 同时被 2 个专栏收录

6 篇文章

订阅专栏

Machine-Learning

6 篇文章

订阅专栏

本文将介绍2020年NIPS上的文章，我认为非常有助于RL研究者进行深入阅读，是一篇兼具理论和实际应用的好文章。CQL原文在此，由于CQL原文内容符号比较混乱，并且在公式推导和符号定义上存在一些小错误。笔者进行了仔细阅读和分析，在此做出一些自己语言的总结理解和重述，给予和笔者一样的读者和研究者进行参考和帮助，希望可以和大家一起讨论和学习。本篇文章理论分析性极强，若读者不喜欢理论证明而想直接应用，笔者也给出了如何直接应用CQL的部分。后续笔者会持续更新这部分与CQL的代码部分，由于CQL设计理论部分和应用部分，限于篇幅，笔者无法在一个博客写下所有，必须分开。笔者分成两部分来进行叙述，一部分用于Q估计，一部分用于V估计。笔者的证明中如有推导错误。欢迎各位学者提出批评和建议。
第一部分：Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)主要介绍基础概念和CQL第一个下界Q估计
第二部分：Conservative Q-Learning(CQL)保守Q学习(二)-CQL2(下界V值估计),CQL®与CQL(H)。
不感兴趣原理的读者请直接阅读第二部分的2.4部分进行 $CQ L (R)$ 和 $CQ L (H)$ 的应用，而无需了解理论。
原作者给出的代码链接在此：CQL原作代码。但是笔者认为原作者给出的代码存在一些小问题，笔者在这里暂且保留这个疑虑，在文章中最后笔者给出了疑虑内容，欢迎大家进行讨论。笔者已经将文章出现的疑虑和代码疑虑汇总给CQL作者Aviral Kumar发了邮件。

作为开头，首先笔者先给出一些符号定义和问题的重述，便于后续的阅读，否则直接读极其容易混乱，希望本文可以给予读者指引。

1、预备知识说明

1.1、全文符号重定义

$A g e n t$ :智能体(探索对象）
$s t a t e$ : $A g e n t$ 所处的状态—— $t$ 时刻所处状态简称为 $s_t$
$a$ : $A g e n t$ 所采取的动作—— $t$ 时刻所处采取的动作简称为 $a_t$
$r$ : $A g e n t$ 在 $s_t$ 下所采取动作 $a_t$ 获得多少奖励,简称为 $r(s_t,a_t)$

符号内容	符号表示意义
$\pi_{\beta}(a_t\|s_t)$	先验分布函数,数据集中真实的 $s_t$ 下采取动作 $a_t$ 的概率
$\hat{\pi}_{\beta}(a_t\|s_t)$	经验分布函数,数据集体现在采样中 $s_t$ 下采取动作 $a_t$ 的概率
$\hat{\pi}^{k}(a_t\|s_t)$	第 $k$ 步迭代下, $s_t$ 状态下, $A g e n t$ 采取动作 $a_t$ 对应的概率
$\pi(a_t\|s_t)$	迭代稳定后, $s_t$ 状态下, $A g e n t$ 采取动作 $a_t$ 对应的概率
$Q^{k}(s_t,a_t)$	第 $k$ 步迭代下, $s_t$ 状态下, $A g e n t$ 采取动作 $a_t$ 对应的真实Q值
$\hat{Q}^{k}(s_t,a_t)$	第 $k$ 步迭代下, $s_t$ 状态下, $A g e n t$ 采取动作 $a_t$ 对应的预估Q值
$Q^{\pi}(s_t,a_t)$	迭代稳定后, $s_t$ 状态下, $A g e n t$ 采取动作 $a_t$ 对应的真实Q值
$\hat{Q}^{\pi}(s_t,a_t)$	迭代稳定后, $s_t$ 状态下, $A g e n t$ 采取动作 $a_t$ 对应的预估Q值
$T(s_{t+1}\|s_t,a_t)$	$s_t$ 状态下， $A g e n t$ 采取动作 $a_t$ 对应的真实状态转移概率
$\hat{T}(s_{t+1}\|s_t,a_t)$	$s_t$ 状态下， $A g e n t$ 采取动作 $a_t$ 对应的经验状态转移概率
$r(s_t,a_t)$	$s_t$ 状态下，基于 $T$ 得到 $A g e n t$ 采取动作 $a_t$ 对应的真实奖励
$\hat{r}(s_t,a_t)$	$s_t$ 状态下，基于 $\hat{T}$ 得到 $A g e n t$ 采取动作 $a_t$ 对应的经验奖励
$B^{\pi}Q(s_t,a_t)$	$r(s_t,a_t)+E_{s_{t+1}～T, a_{t+1}～\pi(a_{t+1}\|s_{t+1})}[Q(s_{t+1},a_{t+1})]$
$\hat{B}^{\pi}Q(s_t,a_t)$	$\hat{r}(s_t,a_t)+E_{s_{t+1}～\hat{T}, a_{t+1}～\pi(a_{t+1}\|s_{t+1})}[Q(s_{t+1},a_{t+1})]$
$V^{\pi}(s_t)$	$E_{a_t～\pi(a_t\|s_t)}[Q^{\pi}(s_t,a_t)]$
$\hat{V}^{k}(s_t)$	$E_{a_t～\pi(a_t\|s_t)}[\hat{Q}^k(s_t,a_t)]$
$d^{\pi_{\beta}}(s_t)$	${\pi_{\beta}}(a\|s)$ 的状态边际分布
$\hat{d}^{\pi_{\beta}}(s_t)$	${\hat{\pi}_{\beta}}(a\|s)$ 的状态边际分布

1.2、预备知识和问题描述

1.2.1、离线数据集 $D$ 的构成

针对一个已经通过离线获取好的数据集 $D$ ,其中， $D$ 为一系列这样的集合构成： $D=\{(s_t,a_t,s_{t+1})\}$ $D$ 中元素构成分为三部分，假设 $D$ 中元素总数为 $∣ D ∣$ ：
一、从边际先验分布 $d^{\pi_{\beta}}(s_t)$ 中采样获取 $s_t$
二、从先验分布 $\pi_{\beta}(a_t|s_t)$ 中采样获取 $a_t$
三、从真实状态转移分布 $T(s_{t+1}|s_t,a_t)$ 中采样获取 $s_{t+1}$
$P(\{(s_t,a_t,s_{t+1})\})=T(s_{t+1}|s_t,a_t)\pi_{\beta}(a_t|s_t)d^{\pi_{\beta}}(s_t)$ 但是这一先验分布和真实状态转移分布其实人为是并不知道的。我们只能去估计。在实际应用中，我们只能获取到它的以下几个内容：
一、从边际经验分布 $\hat{d}^{\pi_{\beta}}(s_t)$ 中采样获得 $s_t$
二、从经验分布 $\hat{\pi}_{\beta}(a_t|s_t)$ 中采样获取 $a_t$
三、从经验状态转移分布 $\hat{T}(s_{t+1}|s_t,a_t)$ 中采样获取 $s_{t+1}$
其中，根据简单概率论知识不难得到这三者的定义计算公式如下，它们的定义均是由示性函数 $1$ 定义：
$\hat{d}^{\pi_{\beta}}(s_t)=\frac{\sum_{s \in D}1(s=s_t)}{|D|}$
$\hat{\pi}_{\beta}(a_t|s_t)=\frac{P(s_t,a_t)}{\hat{d}^{\pi_{\beta}}(s_t)}=\frac{\sum_{s,a \in D}1(s=s_t,a=a_t)}{\sum_{s \in D}1(s=s_t)}$
$\hat{T}(s_{t+1}|s_t,a_t)=\frac{P(s_t,a_t,s_{t+1})}{P(s_t,a_t)}=\frac{\sum_{s,a,s^{'}\in D}1(s=s_t,a=a_t,s^{'}=s_{t+1})}{\sum_{s,a \in D}1(s=s_t,a=a_t)}$

1.2.2、Bellman 最优算子(QL)与Bellman算子(AC)

Bellman 最优算子为Q-Learning(QL)更新时候采用的Q值更新方式，称之为 $B^{*}$ ,定义如下,其中 $\gamma$ 为折扣因子(discounted-factor)：
$B^{*}Q(s_t,a_t)=r(s_t,a_t)+\gamma E_{s_{t+1}～T}[max_aQ(s_t,a)]$ Bellman算子为Actor-Critic(AC)更新时候采用的Q值更新方式，称之为 $B^{\pi}$ ,定义如下,其中 $\gamma$ 为折扣因子(discounted-factor)：
$B^{\pi}Q(s_t,a_t)=r(s_t,a_t)+\gamma E_{s_{t+1}～T,a_{t+1}～\pi}[Q(s_{t+1},a_{t+1})]$
但是事实上，在针对离线数据集时，注意到 $s_{t+1}～T$ 这一项是无法获取全部的 $s_{t+1}$ 来进行实际估计的，因此本文作者提出了经验Bellman算子 $\hat{B}^{\pi}$ ,定义如下,其中 $\gamma$ 为折扣因子(discounted-factor)：
$\hat{B}^{\pi}Q(s_t,a_t)=\hat{r}(s_t,a_t)+\gamma E_{s_{t+1}～\hat{T},a_{t+1}～\pi}[Q(s_{t+1},a_{t+1})]$
其中， $\hat{r}(s_t,a_t)$ 的定义为：
$\hat{r}(s_t,a_t)=\frac{\sum_{s,a \in D}1_{s=s_t,a=a_t}r(s_t,a_t)}{\sum_{s,a \in D}1_{s=s_t,a=a_t}}$

1.2.3、Bellman 迭代(不感兴趣的读者可以不看)

通过1.2.2的我们给出了 $\hat{B^\pi}$ 和 $B^\pi$ 的定义。接下来介绍两者相应的Bellman迭代公式：
$\hat{Q}^{k+1}(s_t,a_t)=B^\pi \hat{Q}^k=r(s_t,a_t)+\gamma E_{s_{t+1}～T,a_{t+1}～\pi}[\hat{Q}^k(s_{t+1},a_{t+1})]$
和
$\hat{Q}^{k+1}(s_t,a_t)=\hat{B}^\pi \hat{Q}^k=\hat{r}(s_t,a_t)+\gamma E_{s_{t+1}～\hat{T},a_{t+1}～\pi}[\hat{Q}^k(s_{t+1},a_{t+1})]$
首先笔者先给出该Bellman迭代公式的来源证明，这很重要，是后面CQL的理论基础之一

定理1:下两个Bellman优化式等价
$(1)Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a,s'}[(r(s,a)+\gamma E_{a'～\pi}[Q^k(s',a')]-Q(s,a))^2]$
$(2)Q^{k+1}(s,a)\leftarrow r(s,a)+\gamma E_{s'～T,a'～\pi}[Q^k(s',a')]$
证明：
令:
$L(Q)=E_{s,a,s'}[(r(s,a)+\gamma E_{a'～\pi}[Q^k(s',a')]-Q(s,a))^2]$
$L(Q)=\sum_{s,a}\sum_{s'}T(s'|s,a)P(s,a)[r(s,a)+\gamma \sum_{a'}\pi(a'|s')Q^k(s',a')-Q(s,a)]^2$
令 $\nabla_Q L(Q)=0$ 会有：
$P(s,a)\sum_{s'}T(s'|s,a)[r(s,a)+\gamma \sum_{a'}\pi(a'|s')Q^k(s',a')-Q(s,a)]=0$ 这即为 $argmin_Q$ :
$r(s,a)+\gamma \sum_{s'}\sum_{a'}T(s'|s,a)\pi(a'|s')Q^k(s',a')=Q(s,a)$ 简单整理以下发现这就是(2)
$r(s,a)+\gamma E_{s'～T,a'～\pi}[Q^k(s',a')]=Q(s,a) \rightarrow Q^{k+1}$
证毕
定理2:若 $|r(s,a)|\leq R (\forall(s,a))$ ,则 $Q(s,a)\leq\frac{R}{1-\gamma}$
证明：
由Bellman迭代我们已经有了
$Q(s,a)\leftarrow r(s,a)+\gamma E_{s'～T,a'～\pi}[Q(s',a')]$
$Q(s_0,a_0)=r(s_0,a_0)+\gamma E_{s_1～T,a_1～\pi}[Q(s_1,a_1)]$
$Q(s_1,a_1)=r(s_1,a_1)+\gamma E_{s_2～T,a_2～\pi}[Q(s_2,a_2)]$
$Q(s_2,a_2)=r(s_2,a_2)+\gamma E_{s_3～T,a_3～\pi}[Q(s_3,a_3)]$
整理会发现
$Q(s_t,a_t)=r(s_t,a_t)+\gamma (r(s_{t+1},a_{t+1}))+\gamma^2(r(s_{t+2},a_{t+2}))+··$
这是等比数列，由于Agent不可能无限探索下去，有限步会终止。因此一定会有
$\forall(s,a),Q(s,a) \leq\frac{R}{1-\gamma}$ 证毕
有了以上两个定理。我们首先介绍作者提出的第一个引理，该引理的目的是去衡量经验Bellman算子和Bellman算子的差异性到底有多大
首先，笔者给予一些自己的注释便于大家后续理解，为什么作者要定义这样一个“经验Bellman算子”呢？这是因为 $T$ 与 $\hat{T}$ 的不同所导致的数据集 $D$ 并不包含全部的 $s_{t+1}$ 转移情况。

引理1:下列不等式满足在高概率条件下成立(成立的可能性大于 $1-\delta$ )，并且奖励函数具有上界。则 $\hat{B^\pi}$ 与 $B^\pi$ 误差是可控的

1. $\hat{r}(s_t,a_t)与r(s_t,a_t)$ 误差足够的小，并且高概率条件下满足下列不等式**(并不要求处处满足该不等式，而是以高概率满足):其中 $C_{r,\delta}$ 为一个关于 $r$ 和 $\delta$ 的常数**
$|\hat{r}(s_t,a_t)-r(s_t,a_t)|\leq\frac{C_{r,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}$ 2. $\hat{T}与T$ 误差足够的小，并且高概率条件下满足下列不等式：其中 $C_{T,\delta}$ 为一个关于 $T$ 和 $\delta$ 的常数
$|\hat{T}(s_{t+1}|s_t,a_t)-T(s_{t+1}|s_t,a_t)|\leq\frac{C_{T,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}$ 3. $|r(s,a)|\leq R (\forall(s,a))$

在满足1，2两高概率成立条件下，同时满足3条件中Reward有上界。则采样误差满足:
$|\hat{B^\pi}Q(s_t,a_t)- B^\pi Q(s_t,a_t)|\leq \frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}$
证明：
令 $|\hat{B^\pi}Q(s_t,a_t)- B^\pi Q(s_t,a_t)|=B$ 可以简单的推导得到：

$B=|r-\hat{r}+\gamma \sum_{s_{t+1}}(\hat{T}-T) E_{a_t～\pi}[Q(s_t,a_t)]|$
$B\leq|r-\hat{r}|+|\gamma \sum_{s_{t+1}}(\hat{T}-T) E_{a_t～\pi}[Q(s_t,a_t)]|$
$B\leq\frac{C_{r,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}+|\gamma \sum_{s_{t+1}}(\hat{T}-T) E_{a_t～\pi}[\frac{R}{1-\gamma}]|$
$B\leq\frac{C_{r,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}+| \frac{\gamma C_{T,\delta}}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}[\frac{R}{1-\gamma}]|$
$|\hat{B^\pi}Q(s_t,a_t)- B^\pi Q(s_t,a_t)|\leq\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}$ 证毕

1.2.4、Actor-Critic更新方式

在笔者的另一篇文章PPO中已经介绍了策略梯度的更新方式。现在我们还有了Q值的更新方式，因此汇总起来得到如下的Actor-Critic更新方式如下：
$Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a,s'～D}[(r(s,a)+\gamma E_{a'～{\pi}^k}[Q^k(s',a')]-Q(s,a))^2]$
$\hat{\pi}^{k+1}(a|s)\leftarrow argmax_\pi E_{s～D,a～\pi}[Q^{k+1}(s,a)]$

1.2.5、问题描述

Offline RL算法存在一个明显的问题是，数据集 $D$ 是给定好的。我们注意到这一点，在训练的时候，也即 $(s, a, s^{'})$ 这一对是固定好在数据集 $D$ 中的，而数据集 $D$ 是基于用 $\pi_\beta(a|s)$ 采样而得到的。但是在训练的时候我们发现我们训练出来的目标 $\pi^k(a|s)$ 是去最大化这个 $Q$ 值，换而言之:
$\hat{\pi}^{k}(a'|s')\leftarrow argmax_\pi E_{s'～D,a'～\pi}[Q^{k}(s',a')]$ 其实按照常理来讲，更新完了策略以后，应该利用当前所给出的策略去采样一段 $(s, a, s^{'})$ ，然后再利用公式：
$Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a,s'～D}[(r(s,a)+\gamma E_{a'～\hat{\pi}^k}[Q^k(s',a')]-Q(s,a))^2]$ 进行更新，以此类推。但是显然的在Offline RL中存在这样的问题，用红色标注
上述公式中的 $r (s, a)$ 在Offline中是无法获取的，因为无法与环境进行探索，这会导致一个问题，很有可能是真实的 $(r(s,a)|\pi_\beta)$ 要比现在固定的 $(r(s,a)|\hat{\pi}^k)$ 要低，因为此时的 $\hat{\pi}^k$ 是已经经过优化后的策略了。那么自然的，Offline RL算法存在了最明显也是最薄弱的缺陷之一，即由于不能与环境进行更新互动，导致了真实的Q值要比估计的Q值偏低。这就是最著名的Q值高估问题。

2、CQL算法思想，证明与应用。

这一部分涉及很多理论证明和应用。不感兴趣证明和为什么CQL好的原理的读者，可以直接跳过证明部分只看如何应用CQL即可，无需看本部分证明，而如果想详细了解的读者可以跟随笔者进行证明。
为了便于后续理论部分内容，首先回顾下传统的Q更新方式，已经在第一节介绍过了：
$Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a,s'～D}[(r(s,a)+\gamma E_{a'～{\pi}}[Q^k(s',a')]-Q(s,a))^2]$
或者写成
$Q^{k+1}(s,a)\leftarrow argmin_QE_{s,a}[(B^{{\pi}}Q^k(s,a)-Q(s,a))^2]$

根据上述讨论，这样会高估Q值，原文作者提出了一种学习真实Q值函数下界的办法来改善这种状况：
原文作者提出了两种版本的CQL，分别是针对Q值的点态估计下界和关于V值的点态估计下界。在这里我逐一介绍并重证明。

2.1、CQL-version1

注：一个函数 $f (x)$ 的支集定义为 $spt(f(x))=\{x|f(x)\neq0 \}$
CQL定理1:对于任意的分布 $\mu(a|s)$ ，因子 $\alpha>0$ 。满足： $supp(\mu)\subset supp(\pi_\beta)$ (即 $\pi_\beta=0$ $\rightarrow$ $\mu=0$ )时,满足在高概率条件成立中的引理1条件。在因子 $\alpha$ 足够大条件下，下列CQL1估计出的Q值满足： $\hat{Q}^\pi(s,a) \leq Q^\pi(s,a) \forall(s,a)$ 。额外的，若 $\hat{B}^\pi=B^\pi$ 即无采样误差存在，此时无需满足引理1的任何条件。对于任意 $\alpha>0$ ，均有 $\hat{Q}^\pi(s,a) \leq Q^\pi(s,a) \forall(s,a)$
CQL1更新方式为：
$Q^{k+1}(s,a)\leftarrow argmin_Q[\frac{1}{2}E_{s,a}[(\hat{B}^{{\pi}}Q^k(s,a)-Q(s,a))^2]+\alpha E_{s～D,a～\mu(a|s)}[Q(s,a)]]$ 证明：
仿照之前的证明的办法，令 $L(Q)=[\frac{1}{2}E_{s,a}[(B^{{\pi}}Q^k(s,a)-Q(s,a))^2]+\alpha E_{a～\mu(a|s)}[Q(s,a)]]$ ,并令 $\nabla_QL(Q)=0$ 求解 $Q$ 即可。
$\nabla_QL(Q)=-\sum_{s'}\hat{T}(s'|s,a)P(s,a)[\hat{r}(s,a)+\gamma \sum_{a'}{\pi}(a'|s')Q^k(s',a')-Q(s,a)]+\alpha d^{\pi_\beta}(s)\mu(a|s)$ 令上式=0会得到
$\frac{\alpha d^{\pi_\beta}(s)\mu(a|s)}{P(s,a)}=\hat{r}(s,a)+\gamma E_{s'～\hat{T}，a'～{\pi}}[Q^k(s',a')]-Q(s,a)$ 这即：
$\frac{\alpha\mu(a|s)}{\pi_\beta(a|s)}=\hat{B}^{{\pi}}Q^k(s,a)-Q(s,a)$ 整理一下即可得到Q值更新公式：
$(CQL1)Q^{k+1}(s,a)=\hat{B}^{{\pi}}Q^k(s,a)-\frac{\alpha\mu(a|s)}{\pi_\beta(a|s)}$ 而我们之前RL中Q得更新公式为
$(RL)Q^{k+1}(s,a)=B^{{\pi}}Q^k(s,a)$ 下面来对比这两个结果，由引理1可以知道已经有了如下不等式估计
$|\hat{B^\pi}Q(s_t,a_t)- B^\pi Q(s_t,a_t)|\leq\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}$
$(CQL1)Q^{k+1}(s_t,a_t)\leq B^{{\pi}}Q^k(s_t,a_t)+\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha \mu(a|s)}{\pi_\beta(a|s)}$ 令 $k\rightarrow\infty$ 让策略趋于稳定可以得到
$\hat{Q}^{\pi}(s_t,a_t)\leq B^{\pi}\hat{Q}^\pi(s_t,a_t)+\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}$ 对于真实的Q值，应该满足Bellman方程：
$B^{\pi}Q(s_t,a_t)=r(s_t,a_t)+\gamma E_{s_{t+1}～T,a_{t+1}～\pi}[Q(s_{t+1},a_{t+1})]$ 若令 $P^\pi Q(s_t,a_t)=E_{s_{t+1}～T,a_{t+1}～\pi}[Q(s_{t+1},a_{t+1})]$
则会有 $B^{\pi}Q(s_t,a_t)=r(s_t,a_t)+P^\pi Q(s_t,a_t)$ ,待到策略稳定时会有:
$Q^\pi(s_t,a_t)=r(s_t,a_t)+P^\pi Q^\pi(s_t,a_t)\rightarrow Q^\pi(s_t,a_t)=(I-P^\pi)^{-1}r(s_t,a_t)$ 故因此我们会有:
$\hat{Q}^{\pi}(s_t,a_t)\leq r(s_t,a_t)+P^\pi \hat{Q}^\pi(s_t,a_t)+\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha\mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}$
$\hat{Q}^{\pi}(s_t,a_t)\leq(I-P^\pi)^{-1}[r(s_t,a_t)+\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha\mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}]$ 这也即分别对应了是否存在采样误差（红色和蓝色）的情况
$\hat{Q}^{\pi}(s_t,a_t)\leq Q^\pi(s_t,a_t)+(I-P^\pi)^{-1}[\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}]$
$\hat{Q}^{\pi}(s_t,a_t)\leq Q^\pi(s_t,a_t)+(I-P^\pi)^{-1}[-\frac{\alpha \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}]$ 1.当存在采样误差时，并且 $\alpha$ 足够大时候可以保证第二项为负的，这时有
$\hat{Q}^{\pi}(s_t,a_t)\leq Q^\pi(s_t,a_t)$ 恒成立。
有趣的是，这个足够大的 $\alpha$ 是可以计算的。事实上读者们会发现当：
$\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}-\frac{\alpha \mu(a_t|s_t)}{\pi_\beta(a_t|s_t)}<0$ 即
$\alpha \geq max_{s_t,a_t}\frac{|C_{r,\delta}|+|\frac{\gamma C_{T,\delta}R}{1-\gamma}|}{\sqrt{\sum_{s,a \in D}1_{s=s_t,a=a_t}}}max_{s_t,a_t}\frac{\pi_\beta(a_t|s_t)}{\mu(a_t|s_t)}$ 2.当不存在采样误差时，注意到第二项已经恒负了，而无需调节 $\alpha$ ,这时有
$\hat{Q}^{\pi}(s_t,a_t)\leq Q^\pi(s_t,a_t)$ 恒成立。
证毕
笔者本部分证对应于下图所示原文的Theorem 3.1，笔者与原文证明略有不同，但是本质是一样的。
在这里插入图片描述
接下来将在《Conservative Q-Learning(CQL)保守Q学习(二)-CQL2(下界V值估计)》中主要介绍CQL第二个下界V估计即CQL逐步下界估计中介绍下一个下界算法，这两个是CQL的应用基础，谢谢大家。