DQN学习步骤

初始化容量为 N 的经验池 D

使用随机值初始化作为 QQ神经网络的权值 θ

初始化目标神经网络Q^,结构以及初始化权重 θθ−QQ 相同

For 游戏片段 = 1,循环M次:

  初始化序列 s1={x1} 并预处理ϕ1=ϕ(s1)ϕ1=ϕ(s1)

  For t =1 ,循环T次:

    根据概率εε选择一个随机的动作atat
    或者根据argmaxaQ(ϕ(st,a;θ))argmaxaQ(ϕ(st,a;θ))的取值来选择动作atat
    在环境中执行atat,得到奖励rtrt和图像xt+1xt+1

    使st+1=stst+1=st, atat, xt+1xt+1并使ϕt+1=ϕ(st+1)ϕt+1=ϕ(st+1)

    将结果(ϕt,at,rt,ϕt+1)(ϕt,at,rt,ϕt+1)存入DD

    随机从D中取出minibatch个状态

yj={rj如果游戏片段在第j+1步结束rj+γmaxaQ^(ϕj+1,a,;θ)其他

    梯度下降更新θθ,损失函数为(yjQ(ϕj,aj;θ))2(yj−Q(ϕj,aj;θ))2

    每CC步使Q^=Q

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值