12、学习选择最佳策略:策略梯度方法

学习选择最佳策略:策略梯度方法

1. 探索

在强化学习中,为了在训练过程中访问新的状态,我们的策略需要包含一定的随机性。以深度Q网络(DQN)为例,我们采用ε - 贪心策略,即有一定概率不选择能带来最大预测奖励的动作。如果总是选择能带来最大预测奖励的动作,就无法发现更好的动作和状态。

对于随机策略梯度方法,由于其输出是一个概率分布,所以应该有小概率去探索所有的状态空间。只有在充分探索之后,动作分布才会收敛到产生单一的最佳动作,形成退化分布。如果环境本身存在一定的随机性,概率分布会为每个动作保留一定的概率质量。在模型初始化时,由于模型对哪个动作更好没有任何信息,所以智能体选择每个动作的概率应该大致相等或均匀。

下面介绍概率分布的相关知识:
- 离散概率分布 :以Gridworld游戏为例,动作集A = {上, 下, 左, 右} 是离散的,对这个动作集应用概率分布,意味着为集合中的每个动作分配一个介于0和1之间的置信度(实数),且所有概率之和为1。这种映射可以用概率质量函数(PMF)表示,例如 [上, 下, 左, 右] → [0.25, 0.25, 0.10, 0.4] 。
- 连续概率分布 :如果动作集是无限的,例如速度这样的连续变量,就需要定义概率密度函数(PDF)。最常见的PDF是正态(高斯)分布。在处理连续动作的概率时,比如在汽车游戏中控制汽车从0到某个最大值的速度,我们可以训练一个神经网络来产生均值和标准差,然后将这些值代入正态分布方程进行采样。

2. 确定性策略梯度与随机策略梯度

策略梯度有一个变体叫做确定性策略梯度(DPG),在这种

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值