学习选择最佳策略:策略梯度方法
1. 探索
在强化学习中,为了在训练过程中访问新的状态,我们的策略需要包含一定的随机性。以深度Q网络(DQN)为例,我们采用ε - 贪心策略,即有一定概率不选择能带来最大预测奖励的动作。如果总是选择能带来最大预测奖励的动作,就无法发现更好的动作和状态。
对于随机策略梯度方法,由于其输出是一个概率分布,所以应该有小概率去探索所有的状态空间。只有在充分探索之后,动作分布才会收敛到产生单一的最佳动作,形成退化分布。如果环境本身存在一定的随机性,概率分布会为每个动作保留一定的概率质量。在模型初始化时,由于模型对哪个动作更好没有任何信息,所以智能体选择每个动作的概率应该大致相等或均匀。
下面介绍概率分布的相关知识:
- 离散概率分布 :以Gridworld游戏为例,动作集A = {上, 下, 左, 右} 是离散的,对这个动作集应用概率分布,意味着为集合中的每个动作分配一个介于0和1之间的置信度(实数),且所有概率之和为1。这种映射可以用概率质量函数(PMF)表示,例如 [上, 下, 左, 右] → [0.25, 0.25, 0.10, 0.4] 。
- 连续概率分布 :如果动作集是无限的,例如速度这样的连续变量,就需要定义概率密度函数(PDF)。最常见的PDF是正态(高斯)分布。在处理连续动作的概率时,比如在汽车游戏中控制汽车从0到某个最大值的速度,我们可以训练一个神经网络来产生均值和标准差,然后将这些值代入正态分布方程进行采样。
2. 确定性策略梯度与随机策略梯度
策略梯度有一个变体叫做确定性策略梯度(DPG),在这种
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



