本文是在DQN与stochastic policy gradient基础上进行介绍,部分公式源头可以在DQN,stochastic policy gradient中找到。
一、AC算法
在之前的随机策略梯度算法中,我们可以采用类似蒙特卡洛的方法采样一条轨迹后对策略进行更新,如下所示
∇ θ J ( θ ) = 1 N ∑ i = 0 N ∑ t = 0 T [ ∇ θ log π θ ( a i , t ∣ s i , t ) ( ∑ t ′ = t T r ( s i , t , a i , t ) − b ) ] ( 1 ) \nabla_{\theta}J(\theta)=\frac{1}{N}\sum_{i=0}^N\sum_{t=0}^T[\nabla_{\theta}\log \pi_{\theta}(a_{i,t}|s_{i,t})(\sum_{t'=t}^Tr(s_{i,t},a_{i,t})-b)] \qquad(1) ∇θJ(θ)=N1i=0∑Nt=0∑T[∇θlogπθ(ai,t∣si,t)(