20、策略梯度估计与优化全解析

于 2025-09-02 11:10:15 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：决策算法：智能选择的艺术文章标签：策略梯度有限差分法似然比法

本文链接：https://blog.youkuaiyun.com/read5/article/details/152386339

决策算法：智能选择的艺术专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

策略梯度估计与优化全解析

1. 策略梯度估计方法概述

策略梯度估计在优化策略以最大化预期效用方面起着关键作用。以下是几种常见的策略梯度估计方法：
- 有限差分法 ：通过估计当前参数向量下的策略效用 (U(\theta)) 以及所有 (n) 种参数向量变化下的效用 (U(\theta + \delta e^{(i)})) 来计算策略梯度。若使用 (m) 次滚动来估计每种效用，则总共需要进行 (m(n + 1)) 次滚动。
- 线性回归法 ：可提供更稳健的策略梯度估计。
- 似然比法 ：能推导出一种不依赖随机策略转移模型的策略梯度形式。
- 减少方差的方法 ：使用回报到目标（reward - to - go）和基线减法可以显著降低策略梯度的方差。

2. 优势函数与策略梯度

在考虑状态 - 动作对的梯度贡献时，我们更关注一个动作相对于另一个动作的相对价值。引入优势函数 (A(s, a) = Q(s, a) - U(s))，使用状态价值函数进行基线减法可得到优势函数。基于优势函数的策略梯度是无偏的，且通常具有更低的方差，其梯度计算形式如下：
[
\nabla U(\theta) = E_{\tau}\left[\sum_{k = 1}^{d}\nabla_{\theta}\log\pi_{\theta}(a^{(k)}|s^{(k)})\gamma^{k - 1}A_{\theta}(s^{(k)}, a^{(k)})\right]
]
然而，优势函数通常