1、Double DQN算法:
Selection using DQN:
a⋆=argmaxaQ(st+1,a;w). a^{\star}=\operatorname*{argmax}_{a}Q(s_{t+1},a;\mathbf{w}). \\ a⋆=aargmaxQ(st+1,a;w).
Evaluation using target network:
yt=rt+γ⋅Q(st+1,a⋆;w−). y_{t}=r_{t}+\gamma\cdot Q(s_{t+1},a^{\star};\mathbf{w}^{-}). \\ yt=rt+γ⋅Q(st+1,a

最低0.47元/天 解锁文章
3438

被折叠的 条评论
为什么被折叠?



