深度强化学习:DQN改进与A2C算法解析
1. 训练DQN智能体玩Atari游戏
Atari 2600是1977年发布的热门游戏机,大量经典街机游戏被移植到该平台。因其计算需求低,易于在现代计算机上模拟,2012年Bellemare等人意识到Atari游戏是强化学习算法的理想测试平台,并创建了Arcade Learning Environment(ALE),可模拟50多种游戏。
SLM Lab使用OpenAI Gym提供的Atari游戏,每个游戏的状态是低分辨率RGB图像,编码为(210, 160, 3)的三维数组,动作空间是离散的,维度较少,不同游戏中智能体每步有4 - 18种不同动作。例如,OpenAI Gym中Pong游戏的动作有:0(无操作)、1(开火)、2(上)和3(下)。
Atari游戏的状态空间维度远高于之前的游戏,每个状态有100,800维,而CartPole只有4维。同时,Atari游戏更复杂,回合持续数千步,需要复杂的动作序列才能取得好成绩。为帮助智能体在这种环境下学习,对标准DQN或Double DQN算法进行了以下调整:
- 专门的网络设计 :Q函数近似器是一个卷积神经网络,有三个隐藏卷积层和一个隐藏全连接层。
- 状态预处理 :包括图像缩小、灰度化、帧拼接和最大像素值帧跳过。
- 奖励预处理 :每个时间步的奖励根据原始奖励的符号转换为 -1、0 或 +1。
- 环境重置 :根据游戏情况,当失去一条生命时,重置环境,随机化起始状态,并可能在重置时按下“FIRE”。 <
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



