往期回顾:
DQN原理及算法
目标网络和训练网络中参数更新 replace_target_iter
如果目标网络更新过快,算法将会陷入过拟合,n个batch后更新的道理类似于故意为数据添加了噪声,收敛的方向才会大致正确而不是在错误和正确之前震荡。
----深度强化学习·搭建深度Q值网络(DQN)及背后的思考
往期回顾:
目标网络和训练网络中参数更新 replace_target_iter
如果目标网络更新过快,算法将会陷入过拟合,n个batch后更新的道理类似于故意为数据添加了噪声,收敛的方向才会大致正确而不是在错误和正确之前震荡。
----深度强化学习·搭建深度Q值网络(DQN)及背后的思考