回顾 传统的策略梯度算法以下式作为策略网络的损失: g^=E^t[∇θlogπθ(at∣st)A^t]\hat{g}=\hat{\mathbb{E}}_{t}\left[\nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) \hat{A}_{t}\right]g