问题:
给定一个state,如何找到一个action,使得这个action带来的reward最大?
Actor Critic算法:
网络定义
Actor和critic分别是两个结构不同神经网络。
(其实,它们还各有一个与自身结构相同,但是参数权值不同的孪生网络。一个记为eval_net,一个记为target_net。所以一共是四个网络)
ActorActorActor:输入(state),输出(action)
CriticCriticCritic:输入(state, action),输出(reward),即这里的Q值
前向传播过程
将statestatestate传给Actor,然后获取Actor输出的actionactionaction值即可。
网络更新过程:
更新Critic:
CriticCriticCritic的更新,就是计算出rewardrewardreward关于