详解受约束的强化学习(四、数学符号说明)

原创已于 2025-05-22 13:06:23 修改 · 822 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法 #机器学习 #强化学习 #约束强化学习 #约束

于 2025-05-22 11:26:47 首次发布

符号解析

1. 基本符号（CMDP与强化学习背景）

$\pi(a|s)$ : 策略函数，在状态 $s$ 下选择动作 $a$ 的概率分布。
- 意义：决定代理行为的概率模型，通常为参数化的神经网络。
- 作用：CPO优化的核心对象，出现在公式3和10中。
- 公式关联：与 $J(\pi)$ 、 $J_{C_i}(\pi)$ 、 $D_{TV}(\pi' \|\pi | s)$ 、 $\tilde{D}_{KL}$ 相关。
$J(\pi)$ : 期望折扣奖励，定义为：
$J(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t, s_{t+1}) \right]$
- 意义：衡量策略 $\pi$ 的长期奖励。
- 作用：CPO优化的目标，公式3和10的目标函数。
- 公式关联：定理1和推论1提供其近似界限。
$J_{C_i}(\pi)$ : 期望折扣成本，定义为：
$J_{C_i}(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t C_i(s_t, a_t, s_{t+1}) \right]$
- 意义：衡量第 $i$ 个约束的累计成本（如安全性）。
- 作用：CPO确保 $J_{C_i}(\pi) \leq d_i$ ，公式3、10和推论2相关。
- 公式关联：与 $c_i$ 和 $A_{C_i}^\pi$ 连接。
$d_i$ : 第 $i$ 个约束的阈值。
- 意义：成本 $J_{C_i}(\pi)$ 的上限。
- 作用：定义约束条件，出现在公式3、10和11。
- 公式关联：通过 $c_i = J_{C_i}(\pi_k) - d_i$ 影响优化。
$\gamma$ : 折扣因子， $\gamma \in [0,1)$ 。
- 意义：控制未来奖励和成本的权重。
- 作用：调节 $J(\pi)$ 、 $J_{C_i}(\pi)$ 和界限中的因子。
- 公式关联：出现在 $\frac{1}{1-\gamma}$ 和 $\frac{\gamma}{(1-\gamma)^2}$ 。
$d^\pi(s)$ : 折扣未来状态分布，定义为：
$d^\pi(s) = (1-\gamma) \sum_{t=0}^{\infty} \gamma^t P(s_t = s | \pi)$
- 意义：策略 $\pi$ 下状态 $s$ 的访问概率。
- 作用：支持基于当前策略的采样，出现在 $L_{\pi,f}$ 和 $\tilde{D}_{KL}$ 。
- 公式关联：与 $D_{TV}(d^{\pi'} \| d^\pi)$ 相关。

2. 定理1相关符号

$\delta_f(s,a,s')$ : 辅助函数，定义为：
$\delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s)$
- 意义：结合奖励和函数 $f$ ，衡量状态转移的影响。
- 作用：构造 $L_{\pi,f}(\pi')$ ，支持回报差异近似。
- 公式关联：当 $V^\pi$ 时， $\delta_f = A^\pi(s,a)$ ，用于推论1。
$L_{\pi,f}(\pi')$ : 代理函数，定义为：
$L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right]$
- 意义：近似 $J(\pi') - J(\pi)$ ，使用当前策略的分布。
- 作用：定理1的核心，降低计算复杂度。
- 公式关联：与 $\delta_f$ 和 $A^\pi$ 连接，特化到公式10。
$\epsilon_f^{\pi'}$ : 最大波动，定义为：
$\epsilon_f^{\pi'} = \max_s \left| \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] \right|$
- 意义：衡量 $\delta_f$ 的偏差范围。
- 作用：控制定理1界限的误差。
- 公式关联：出现在 $D_{\pi,f}^{\pm}$ ，特化为 $\epsilon^{\pi'}$ 和 $\epsilon_{C_i}^{\pi'}$ 。
$D_{TV}(\pi' \|\pi | s)$ : 总变差距离，定义为：
$D_{TV}(\pi' \|\pi | s) = \frac{1}{2} \sum_a |\pi'(a|s) - \pi(a|s)|$
- 意义：度量策略在状态 $s$ 下的差异。
- 作用：控制界限误差，限制更新幅度。
- 公式关联：通过引理3与 $D_{TV}(d^{\pi'} \| d^\pi)$ 连接，推论3转为 $D_{KL}$ 。
$D_{TV}(d^{\pi'} \| d^\pi)$ : 状态分布差异，定义为：
$D_{TV}(d^{\pi'} \| d^\pi) = \frac{1}{2} \sum_s |d^{\pi'}(s) - d^\pi(s)|$
- 意义：度量状态分布的差异。
- 作用：在引理2中控制误差。
- 公式关联：通过引理3转为 $\mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right]$ 。
$D_{\pi,f}^{\pm}(\pi')$ : 回报界限，定义为：
$D_{\pi,f}^{\pm}(\pi') = \frac{L_{\pi,f}(\pi')}{1-\gamma} \pm \frac{2\gamma \epsilon_f^{\pi'}}{(1-\gamma)^2} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right]$
- 意义：界定 $J(\pi') - J(\pi)$ 。
- 作用：支持CPO的代理优化。
- 公式关联：整合 $L_{\pi,f}$ 、 $\epsilon_f^{\pi'}$ 、 $D_{TV}$ ，特化到推论1-2。

3. 推论1-3相关符号

$A^\pi(s,a)$ : 优势函数，定义为：
$A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s)$
- 意义：衡量动作 $a$ 的相对优劣。
- 作用：推论1中作为奖励优化的代理目标。
- 公式关联：当 $\delta_f = A^\pi$ ，用于公式10。
$\epsilon^{\pi'}$ : 优势偏差，定义为：
$\epsilon^{\pi'} = \max_s |\mathbb{E}_{a \sim \pi'} [A^\pi(s,a)]|$
- 意义：衡量 $A^\pi$ 的偏差。
- 作用：控制推论1的误差。
- 公式关联：替换 $\epsilon_f^{\pi'}$ ，用于命题1。
$A_{C_i}^\pi(s,a)$ : 约束优势函数，定义为：
$A_{C_i}^\pi(s,a) = Q_{C_i}^\pi(s,a) - V_{C_i}^\pi(s)$
- 意义：衡量动作对约束成本的影响。
- 作用：推论2中作为约束的代理。
- 公式关联：用于公式10的约束。
$\epsilon_{C_i}^{\pi'}$ : 约束优势偏差，定义为：
$\epsilon_{C_i}^{\pi'} = \max_s |\mathbb{E}_{a \sim \pi'} [A_{C_i}^\pi(s,a)]|$
- 意义：衡量约束优势的偏差。
- 作用：控制推论2的误差。
- 公式关联：用于命题2。
$\tilde{D}_{KL}(\pi \|\pi_k)$ : 平均KL散度，定义为：
$\tilde{D}_{KL}(\pi \|\pi_k) = \mathbb{E}_{s \sim d^{\pi_k}} \left[ D_{KL}(\pi \|\pi_k | s) \right]$
- 意义：度量策略差异。
- 作用：限制信任区域更新。
- 公式关联：推论3连接 $D_{TV}$ ，用于公式10和11。

4. 第6部分相关符号

$g$ : 目标梯度，定义为：
$\nabla_\theta \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi_\theta} \left[ A^{\pi_k}(s,a) \right] |_{\theta = \theta_k}$
- 意义：奖励优化的方向。
- 作用：驱动公式11的更新。
- 公式关联：来自公式10，进入公式12-13。
$b_i$ : 约束梯度，定义为：
$b_i = \nabla_\theta \left( J_{C_i}(\pi_k) + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi_\theta} \left[ A_{C_i}^{\pi_k}(s,a) \right] \right) |_{\theta = \theta_k}$
- 意义：约束成本的变化方向。
- 作用：线性化公式11的约束。
- 公式关联：用于公式14和 $B$ 。
$c_i$ : 约束违反量，定义为：
$c_i = J_{C_i}(\pi_k) - d_i$
- 意义：当前约束违反程度。
- 作用：指导公式11的约束。
- 公式关联：与推论2和命题2相关。
$H$ : Hessian矩阵，定义为：
$\nabla_\theta^2 \mathbb{E}_{s \sim d^{\pi_k}} \left[ D_{KL}(\pi_\theta \|\pi_k | s) \right] |_{\theta = \theta_k}$
- 意义：KL散度的曲率。
- 作用：二次近似公式11的约束。
- 公式关联：与 $\tilde{D}_{KL}$ 相关，进入公式13-14。
$\lambda, \nu$ : 对偶变量。
- 意义： $\lambda$ 控制信任区域， $\nu$ 平衡约束。
- 作用：优化公式12，决定公式13的更新。
- 公式关联：与公式11对应。
$C_i^+(s,a,s')$ : 整形成本，定义为：
$C_i^+(s,a,s') = C_i(s,a,s') + \Delta_i(s,a,s')$
- 意义：平滑约束成本。
- 作用：增强公式11的鲁棒性。
- 公式关联：支持推论2的上界。

公式关系总结

第5部分： $\delta_f$ 、 $L_{\pi,f}$ 、 $\epsilon_f^{\pi'}$ 、 $D_{TV}$ 构建定理1的界限， $A^\pi$ 、 $\epsilon^{\pi'}$ 、 $A_{C_i}^\pi$ 、 $\epsilon_{C_i}^{\pi'}$ 特化到奖励和约束， $\tilde{D}_{KL}$ 连接信任区域，构成公式10。
第6部分： $g$ 、 $b_i$ 、 $c_i$ 、 $H$ 线性化公式10为公式11， $\lambda$ 、 $\nu$ 求解对偶问题（公式12-13）， $C_i^+$ 增强鲁棒性（公式15），公式14处理不可行情况。
整体逻辑：符号从定义问题（ $\pi$ 、 $J(\pi)$ 、 $J_{C_i}$ ）到理论界限（ $\delta_f$ 、 $L_{\pi,f}$ 等），再到代理优化（ $A^\pi$ 、 $A_{C_i}^\pi$ ），最后实现高效计算（ $g$ 、 $b_i$ 、 $H$ 等）。