1、算法:
Selection using DQN:
a⋆=argmaxaQ(st+1,a;w). a^{\star}=\operatorname*{argmax}_{a}Q(s_{t+1},a;\mathbf{w}). a⋆=aargmaxQ(st+1
本文介绍了DeepQ-Network(DQN)算法,包括使用策略选择和目标网络进行评价,以及DoubleDQN的实现,涉及计算当前状态和动作的Q值、损失函数等内容。
1、算法:
Selection using DQN:
a⋆=argmaxaQ(st+1,a;w). a^{\star}=\operatorname*{argmax}_{a}Q(s_{t+1},a;\mathbf{w}). a⋆=aargmaxQ(st+1
1130
660
3万+
9071

被折叠的 条评论
为什么被折叠?