深度强化学习:DQN 改进与 A2C 算法解析
1. 训练 DQN 智能体玩 Atari 游戏
Atari 2600 是 1977 年发布的流行游戏机,大量经典街机游戏被移植到该平台。因其计算需求低,在现代计算机上易于模拟,2012 年被用于强化学习算法测试,催生了 Arcade Learning Environment(ALE)。
在 OpenAI Gym 中,Atari 游戏状态是低分辨率 RGB 图像,编码为 (210, 160, 3) 的 3D 数组,动作空间离散且维度少,不同游戏中智能体每步有 4 - 18 种动作可选,如 Pong 游戏有 0(无操作)、1(开火)、2(上)、3(下)。
Atari 游戏状态空间维度远高于之前的游戏,且游戏复杂,每局持续数千步,需要复杂动作序列。为帮助智能体学习,对标准 DQN 或 Double DQN 算法做了如下调整:
- 专门的网络设计 :Q 函数近似器是具有三个隐藏卷积层和一个隐藏全连接层的卷积神经网络。
- 状态预处理 :包括图像缩小、灰度化、帧拼接和最大像素值帧跳过。
- 奖励预处理 :每步奖励根据原始奖励符号转换为 -1、0、+1。
- 环境重置 :根据游戏情况,失去一条生命后重置环境,随机化起始状态,重置时可能按下“FIRE”。
以下是训练使用优先经验回放(PER)的 Double DQN 智能体玩 Atari Pong 的配置文件:
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



