策略梯度估计与优化全解析
1. 策略梯度估计方法概述
策略梯度估计在优化策略以最大化预期效用方面起着关键作用。以下是几种常见的策略梯度估计方法:
- 有限差分法 :通过估计当前参数向量下的策略效用 (U(\theta)) 以及所有 (n) 种参数向量变化下的效用 (U(\theta + \delta e^{(i)})) 来计算策略梯度。若使用 (m) 次滚动来估计每种效用,则总共需要进行 (m(n + 1)) 次滚动。
- 线性回归法 :可提供更稳健的策略梯度估计。
- 似然比法 :能推导出一种不依赖随机策略转移模型的策略梯度形式。
- 减少方差的方法 :使用回报到目标(reward - to - go)和基线减法可以显著降低策略梯度的方差。
2. 优势函数与策略梯度
在考虑状态 - 动作对的梯度贡献时,我们更关注一个动作相对于另一个动作的相对价值。引入优势函数 (A(s, a) = Q(s, a) - U(s)),使用状态价值函数进行基线减法可得到优势函数。基于优势函数的策略梯度是无偏的,且通常具有更低的方差,其梯度计算形式如下:
[
\nabla U(\theta) = E_{\tau}\left[\sum_{k = 1}^{d}\nabla_{\theta}\log\pi_{\theta}(a^{(k)}|s^{(k)})\gamma^{k - 1}A_{\theta}(s^{(k)}, a^{(k)})\right]
]
然而,优势函数通常
超级会员免费看
订阅专栏 解锁全文
984

被折叠的 条评论
为什么被折叠?



