强化学习与生成对抗网络实战
1. 强化学习之深度 Q 学习算法
1.1 深度 Q 学习算法简介
深度 Q 学习(Deep Q-Learning)是一种流行的强化学习方法。在 Q 学习中,我们不关注将观察映射到特定动作,而是尝试为当前状态(观察)分配一个值,并基于该值采取行动。状态和动作可以看作是一个马尔可夫决策过程,其中环境是随机的。在马尔可夫过程中,下一个状态仅取决于当前状态和后续动作,我们假设所有先前的状态(和动作)都是无关的。
1.2 准备工作
在实现深度 Q 学习算法之前,需要确保安装了 OpenAI Gym 环境,可按照官网(https://gym.openai.com/docs/)的说明进行安装。在服务器上运行 Gym 时,需要连接一个虚拟显示器。
1.3 实现步骤
1.3.1 导入必要的库
import gym
import random
import numpy as np
import matplotlib.pyplot as plt
from collections import deque
from keras.models import Sequential
from keras.optimizers import Adam
from keras.layers import Dense, Flatten
from keras.layers.convolutional import Conv2D
from keras import backend as K
超级会员免费看
订阅专栏 解锁全文
8970

被折叠的 条评论
为什么被折叠?



