策略梯度与REINFORCE算法详解
在强化学习领域,策略梯度方法是一种重要的策略优化技术。下面我们将深入探讨策略梯度计算中的问题、REINFORCE算法及其改进方法。
1. 策略价值与轨迹概率
轨迹受给定策略下的状态转移概率影响。策略价值 $J$ 可以用轨迹相关的形式表示。最初,策略价值 $J$ 可表示为:
[J(\theta) = E_{s} \sum P(s, \theta)r(s)]
这里,给定随机策略的性能值可表示为在特定策略下某一轨迹的奖励期望,该期望由在该策略下获得该轨迹的概率加权。由于期望可以积分,进一步用积分形式表示为:
[J(\theta) = \int_{s} r(s)P(s, \theta)ds]
为了得到上述表达式的梯度,需要对参数 $\theta$ 求导:
[\nabla_{\theta}J(\theta) = \int_{s} r(s)\nabla_{\theta}P(s, \theta)ds]
然而,这个方程由于数学上的“难解性”而难以求解。因为在方程中,我们试图对一个依赖于参数 $\theta$ 的函数 $P(s, \theta)$ 关于 $\theta$ 求导,这使得精确的数学求解变得困难,难以实现策略梯度方法。
2. REINFORCE算法
为了解决上述问题,Ronald J. Williams提出了REINFORCE算法,并对上述方程进行了数学简化。在极限条件下,导致方程难解的部分微分可重写为:
[\nabla_{\theta}P(s, \theta)ds = P(s, \theta) \frac{\nabla_{\theta}P(s, \thet
策略梯度与REINFORCE算法解析
超级会员免费看
订阅专栏 解锁全文
1247

被折叠的 条评论
为什么被折叠?



