12、学习选择最佳策略：策略梯度方法-优快云博客

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/151169558

学习选择最佳策略：策略梯度方法

1. 探索

在强化学习中，为了在训练过程中访问新的状态，我们的策略需要包含一定的随机性。以深度Q网络（DQN）为例，我们采用ε - 贪心策略，即有一定概率不选择能带来最大预测奖励的动作。如果总是选择能带来最大预测奖励的动作，就无法发现更好的动作和状态。

对于随机策略梯度方法，由于其输出是一个概率分布，所以应该有小概率去探索所有的状态空间。只有在充分探索之后，动作分布才会收敛到产生单一的最佳动作，形成退化分布。如果环境本身存在一定的随机性，概率分布会为每个动作保留一定的概率质量。在模型初始化时，由于模型对哪个动作更好没有任何信息，所以智能体选择每个动作的概率应该大致相等或均匀。

下面介绍概率分布的相关知识：
- 离散概率分布 ：以Gridworld游戏为例，动作集A = {上, 下, 左, 右} 是离散的，对这个动作集应用概率分布，意味着为集合中的每个动作分配一个介于0和1之间的置信度（实数），且所有概率之和为1。这种映射可以用概率质量函数（PMF）表示，例如 [上, 下, 左, 右] → [0.25, 0.25, 0.10, 0.4] 。
- 连续概率分布 ：如果动作集是无限的，例如速度这样的连续变量，就需要定义概率密度函数（PDF）。最常见的PDF是正态（高斯）分布。在处理连续动作的概率时，比如在汽车游戏中控制汽车从0到某个最大值的速度，我们可以训练一个神经网络来产生均值和标准差，然后将这些值代入正态分布方程进行采样。