【CS285】高斯策略对数概率公式的学习笔记_高斯策略的对数概率-优快云博客

本文链接：https://blog.youkuaiyun.com/songyuc/article/details/145785310

公式介绍

在【CS285】中提到了高斯策略对数概率公式的公式如下：
$\log \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = -\frac{1}{2} \left\| f(\mathbf{s}_t) - \mathbf{a}_t \right\|_{\Sigma}^2 + \text{const}$

符号说明

PDF：Probability Density Function，概率密度函数

推导说明（from DeepSeek-R1-web）

1. 多元高斯分布的概率密度函数

设策略 $\pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t)$ 服从均值为 $\mu= f(\mathbf{s}_t)$ 、协方差矩阵为 $\Sigma$ 的多元高斯分布，其PDF为：
$\pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = \frac{1}{\sqrt{(2\pi)^{d} |\Sigma|}} \exp\left( -\frac{1}{2} (\mathbf{a}_t - f(\mathbf{s}_t))^T \Sigma^{-1} (\mathbf{a}_t - f(\mathbf{s}_t)) \right)$
其中 $d$ 是动作 $\mathbf{a}_t$ 的维度。

2. 对PDF取对数

对上述公式取自然对数，得到对数概率：
$\log \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = -\frac{1}{2} (\mathbf{a}_t - f(\mathbf{s}_t))^T \Sigma^{-1} (\mathbf{a}_t - f(\mathbf{s}_t)) - \frac{d}{2} \log(2\pi) - \frac{1}{2} \log|\Sigma|$

3. 简化与假设

在强化学习中，通常假设：

协方差矩阵 $\Sigma$ 是固定的（例如，设为对角矩阵或常数矩阵），或者与参数 $\theta$ 无关。
常数项对梯度更新无影响：在对策略梯度进行优化时，与 $\theta$ 无关的项在求导后会消失，因此可以合并为常数。

基于上述假设，将对数概率中的常数项合并：
$\text{const} = -\frac{d}{2} \log(2\pi) - \frac{1}{2} \log|\Sigma|$

4. 引入马氏距离符号

定义马氏距离（Mahalanobis distance）为：
$\left\| \mathbf{a}_t - f(\mathbf{s}_t) \right\|_{\Sigma}^2 = (\mathbf{a}_t - f(\mathbf{s}_t))^T \Sigma^{-1} (\mathbf{a}_t - f(\mathbf{s}_t))$

代入对数概率公式，得到：
$\log \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = -\frac{1}{2} \left\| f(\mathbf{s}_t) - \mathbf{a}_t \right\|_{\Sigma}^2 + \text{const}$

最终公式

课程中给出的公式正是上述结果，其中：

$f(\mathbf{s}_t)$ 是由参数 $\theta$ 确定的均值函数（例如神经网络）。
$\Sigma$ 是固定的协方差矩阵，与 $\theta$ 无关。
$\text{const}$ 包含所有与 $\theta$ 无关的常数项。

补充说明

协方差矩阵的简化：如果 $\Sigma$ 是对角矩阵或各向同性（ $\Sigma = \sigma^2 I$ ），则计算马氏距离时只需对每个维度单独计算平方误差。
策略梯度的应用：在计算策略梯度 $\nabla_\theta \log \pi_{\theta}$ 时，常数项 $\text{const}$ 的导数为零，因此可以安全忽略。