强化学习:策略梯度与马尔可夫决策过程
在强化学习领域,有多种算法可用于训练智能体以实现特定目标。本文将介绍策略梯度算法以及马尔可夫决策过程相关内容,帮助大家理解如何让智能体学习并优化其行为策略。
策略梯度算法
策略梯度(Policy Gradients,PG)算法的核心思想是通过朝着更高奖励的方向优化策略的参数。其中,REINFORCE 算法是一种流行的 PG 算法,由 Ronald Williams 在 1992 年提出。以下是其常见变体的具体步骤:
1. 多次游戏并计算梯度 :让神经网络策略多次玩游戏,在每一步计算使所选动作更可能被选择的梯度,但暂不应用这些梯度。
2. 计算动作优势 :运行多个回合后,计算每个动作的优势(通过前面提到的方法)。
3. 调整梯度 :如果动作的优势为正,说明该动作可能是好的,应用之前计算的梯度使该动作在未来更可能被选择;如果优势为负,说明动作可能不好,应用相反的梯度使该动作在未来不太可能被选择。具体做法是将每个梯度向量乘以相应动作的优势。
4. 执行梯度下降 :计算所有得到的梯度向量的均值,并使用它执行一次梯度下降步骤。
接下来,我们使用 tf.keras 实现该算法,训练神经网络策略以学会在小车上平衡杆子。
代码实现
首先,定义一个函数来执行一步游戏:
import tensorflow as tf
i
超级会员免费看
订阅专栏 解锁全文
720

被折叠的 条评论
为什么被折叠?



