从零使用强化学习训练AI玩儿游戏(9)——使用DQN(Keras+CNN)

做了这么。。。。。终于到达这一步了。

GitHub上源代码

上一篇我们用简单的全连接神经网络实现了DQN玩儿了一个简单的游戏,今天我们要用一个复杂的神经网络来玩儿一个复杂的游戏,SpaceInvaders-v0,就玩这个游戏吧,看起来很棒的样子,随便选的。

在这个游戏中observaction是一个屏幕RGB的图片,shape是(210,160,3) = 100800个数据正好试一下卷积神经网络,action 6个中4是发送子弹 2、3分别是左右,reward就是你打没打死那个外星人所得到的奖励,就是图片上的分数,reward分别是5,10,15,20,25,30,每往上增加一层的外星人加5分,然后时不时的有一个紫色的外星人出现,打中他加200分,这里可以考虑做不做归一化处理,我这里先不做归一化处理直接使用它的reward。然后我看国外的论文中也有用opencv先做一个图像处理的,我这里也先不做了就用原图。

看来我还是太小看这个神经网络的训练,还有太高估我渣渣电脑的能力了,居然还想不做图像预处理直接跑。。。。。。根本跑不动啊。。。。我还是老老实实加opencv预处理吧,还有opencv比较熟悉。

所以使用这个教程安装opencv,在这个教程中我没有进入Windows的终端,而是进入anaconda prompt进行安装的,要不然找不到pip命令。

做灰度化处理后的效果:

加了opencv处理后还是很慢,但是比之前好多了

接下来还需要继续优化神经网络,让训练的速度变快。

真正遇到大数据做机器学习的时候就知道自己的电脑有多差了。。。。。。。可优化后的学习速度都需要1.1s左右,导致整个游戏

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值