初始化容量为 N 的经验池 D
使用随机值初始化作为 QQ神经网络的权值 θ
初始化目标神经网络,结构以及初始化权重 θ−θ−和 QQ 相同
For 游戏片段 = 1,循环M次:
初始化序列 并预处理ϕ1=ϕ(s1)ϕ1=ϕ(s1)
For t =1 ,循环T次:
根据概率εε选择一个随机的动作atat
或者根据argmaxaQ(ϕ(st,a;θ))argmaxaQ(ϕ(st,a;θ))的取值来选择动作atat,
在环境中执行atat,得到奖励rtrt和图像xt+1xt+1
使st+1=stst+1=st, atat, xt+1xt+1并使ϕt+1=ϕ(st+1)ϕt+1=ϕ(st+1)
将结果(ϕt,at,rt,ϕt+1)(ϕt,at,rt,ϕt+1)存入DD
随机从D中取出minibatch个状态
梯度下降更新θθ,损失函数为(yj−Q(ϕj,aj;θ))2(yj−Q(ϕj,aj;θ))2
每CC步使