14、深度强化学习：DQN改进与A2C算法解析

最新推荐文章于 2025-11-08 16:47:40 发布

脑补型产品

最新推荐文章于 2025-11-08 16:47:40 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习入门指南文章标签： DQN Double DQN 优先经验回放

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154598546

深度强化学习入门指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度强化学习：DQN改进与A2C算法解析

1. 训练DQN智能体玩Atari游戏

Atari 2600是1977年发布的热门游戏机，大量经典街机游戏被移植到该平台。因其计算需求低，易于在现代计算机上模拟，2012年Bellemare等人意识到Atari游戏是强化学习算法的理想测试平台，并创建了Arcade Learning Environment（ALE），可模拟50多种游戏。

SLM Lab使用OpenAI Gym提供的Atari游戏，每个游戏的状态是低分辨率RGB图像，编码为(210, 160, 3)的三维数组，动作空间是离散的，维度较少，不同游戏中智能体每步有4 - 18种不同动作。例如，OpenAI Gym中Pong游戏的动作有：0（无操作）、1（开火）、2（上）和3（下）。

Atari游戏的状态空间维度远高于之前的游戏，每个状态有100,800维，而CartPole只有4维。同时，Atari游戏更复杂，回合持续数千步，需要复杂的动作序列才能取得好成绩。为帮助智能体在这种环境下学习，对标准DQN或Double DQN算法进行了以下调整：
- 专门的网络设计 ：Q函数近似器是一个卷积神经网络，有三个隐藏卷积层和一个隐藏全连接层。
- 状态预处理 ：包括图像缩小、灰度化、帧拼接和最大像素值帧跳过。
- 奖励预处理 ：每个时间步的奖励根据原始奖励的符号转换为 -1、0 或 +1。
- 环境重置 ：根据游戏情况，当失去一条生命时，重置环境，随机化起始状态，并可能在重置时按下“FIRE”。 <