A3C (Asynchronous Advantage Actor-Critic)
远优于DQN
Alpha go用到了model-based的方法
On-policy:学习的agent和与环境互动的agent是同一个
Off-policy:学习的agent和与环境互动的agent是不同的
注意学习的agent和交互的agent之间的差别不能太大
Actor:是一个神经网络,输入是观察observation,输出是action
可以为连续值
衡量actor:expected total reward期望回报累加值(因为即使是相同的actor,每次得到的回报还是不同:①面对同样的画面,随机策略会导致结果不同;②即使是确定性策略,环境也有可能是随机的)
Actor的梯度更新:提升正向回报的几率,降低负值回报的几率,这里的回报值采用的是累计回报值而不是即时回报
Critic:评估actor π的好坏
MC方法/TD方法