14、深度强化学习:DQN改进与A2C算法解析

深度强化学习:DQN改进与A2C算法解析

1. 训练DQN智能体玩Atari游戏

Atari 2600是1977年发布的热门游戏机,大量经典街机游戏被移植到该平台。因其计算需求低,易于在现代计算机上模拟,2012年Bellemare等人意识到Atari游戏是强化学习算法的理想测试平台,并创建了Arcade Learning Environment(ALE),可模拟50多种游戏。

SLM Lab使用OpenAI Gym提供的Atari游戏,每个游戏的状态是低分辨率RGB图像,编码为(210, 160, 3)的三维数组,动作空间是离散的,维度较少,不同游戏中智能体每步有4 - 18种不同动作。例如,OpenAI Gym中Pong游戏的动作有:0(无操作)、1(开火)、2(上)和3(下)。

Atari游戏的状态空间维度远高于之前的游戏,每个状态有100,800维,而CartPole只有4维。同时,Atari游戏更复杂,回合持续数千步,需要复杂的动作序列才能取得好成绩。为帮助智能体在这种环境下学习,对标准DQN或Double DQN算法进行了以下调整:
- 专门的网络设计 :Q函数近似器是一个卷积神经网络,有三个隐藏卷积层和一个隐藏全连接层。
- 状态预处理 :包括图像缩小、灰度化、帧拼接和最大像素值帧跳过。
- 奖励预处理 :每个时间步的奖励根据原始奖励的符号转换为 -1、0 或 +1。
- 环境重置 :根据游戏情况,当失去一条生命时,重置环境,随机化起始状态,并可能在重置时按下“FIRE”。 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值