GAE主要借鉴了 λ \lambda λ-return 的思想,将其运用到了优势函数的估计中。
1. 策略梯度的表达形式
策略梯度的表达形式有很多,如下:
g = E [ ∑ t = 0 ∞ Ψ t ∇ θ log π θ ( a t ∣ s t ) ] g = \mathbb{E} \left[ \sum_{t=0}^{\infty} \Psi_t \nabla_{\theta} \log \pi_{\theta}(a_t \mid s_t) \right]
GAE主要借鉴了 λ \lambda λ-return 的思想,将其运用到了优势函数的估计中。
策略梯度的表达形式有很多,如下:
g = E [ ∑ t = 0 ∞ Ψ t ∇ θ log π θ ( a t ∣ s t ) ] g = \mathbb{E} \left[ \sum_{t=0}^{\infty} \Psi_t \nabla_{\theta} \log \pi_{\theta}(a_t \mid s_t) \right]
804
1590
2829
899

被折叠的 条评论
为什么被折叠?