一些basis
Gradient
Counterfactual multi-agent policy gradients
这里有个后面流传很广的算法:COMA(counterfactual multu-agent)
文中有提到最简单的policy gradient的形式是Reinforce,公式如下:
∇θ J(θ) = Eτ~πθ [∑t=0T ∇θ log πθ(at | st) Gt ]
- ∇θ J(θ): 这是 objective function J(θ) 对 policy 参数 θ 的 gradient。 Objective function 通常就是 expected cumulative discounted reward,说白了就是agent期望获得的总回报。
- Eτ~πθ: 这是对 trajectories τ 的 expectation,这些 trajectories 是根据 policy πθ sample