1废话
这篇论文和上一篇其实都差不多,都是DQN,都是 DeepMind 的,作者也都一样,不过还是有一些改进的,下面就直说改进了,不说背景了。
2 算法改进
有两个比较大的改进:
(1)加了一个 target Q,每个 C step 将当前的 Q 网络的参数赋值给 target Q。作用是在训练过程中,固定目标值,也就是,防止 divergence 或 oscillations的发生。
(2)将的误差 clip 在了 -1 到 1,为了增加算法的稳定性。
(3)还有一些训练参数改了,比如没有再用随机梯度下降,而选择 RMSProp,具体的参数见论文的 Extended table 1。
3 实验
比起上一篇论文,测试了更多的游戏(49个),对比效果肯定是很不错的。同时根据隐藏层的最后一层,用t-SNE,将图像的表征降为在了2维中,证明了算法所使用的 CNN 的确从原始画面中提取到的特征,输出 Q 值表示了未来期望获得的 reward。