强化学习与机器学习的未来探索
1. 强化学习方法
1.1 策略优化
策略优化旨在找到一个好的策略。为实现这一目标,需对策略进行参数化表示,策略 $\pi$ 可表示为与参数 $\theta$ 相关的形式,算法需对 $\theta$ 进行优化。这些算法通常是在线策略的,即在执行策略时直接对其进行更新。同时,需要使用价值函数 $V$ 来评估策略的优劣。策略优化方法近期受到广泛关注,如演员 - 评论家模型(如 A2C、A3C)和近端策略优化(PPO)。
1.2 Q - 学习方法
Q - 学习方法专注于学习 Q 矩阵 $Q(s,a)$,它是最优动作价值函数 $Q_{\theta}(s,a)$ 的近似。这类算法通常进行离线策略优化,即每次更新可在训练期间的任意数据点收集。策略固定,用于选择旨在最大化奖励的下一个动作,例如深度 Q 网络(DQN)。
2. 使用 OpenAI Gym
2.1 安装 OpenAI Gym
- macOS 或 Linux :安装较为简单,在终端输入以下命令:
pip install gym
- Windows :安装过程较为复杂,需按以下步骤操作:
- 从 vcXsrv 安装 VcXsrv Windows X Server。
- 运行 bash。
- 使用以下命令安装 h
超级会员免费看
订阅专栏 解锁全文
1996

被折叠的 条评论
为什么被折叠?



