强化学习中常用的随机策略

本文介绍了强化学习中的几种常见策略,包括确定性的贪婪策略、平衡探索与利用的ε-greedy策略、适用于连续动作空间的高斯策略以及适用于离散动作空间的玻尔兹曼策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随机策略可以理解为是概率分布,常用的有以下几种:

贪婪策略

π(a|s)={1  if a=argaAmaxq(s,a)0  otherwiseπ∗(a|s)={1  if a=arga∈Amaxq∗(s,a)0  otherwise

贪婪策略是一个确定性策略,即只有在使得动作值函数q(s,a)q∗(s,a)最大的动作处取概率为1,选择其他动作的概率为0

e-greedy策略

π(a|s){1ϵ+ϵ|A(s)|  if a=argmaxaQ(s,a)ϵ|A(s)|  if aargmaxaQ(s,a)π(a|s)←{1−ϵ+ϵ|A(s)|  if a=argmaxaQ(s,a)ϵ|A(s)|  if a≠argmaxaQ(s,a)

ϵgreedyϵ−greedy策略是强化学习最基本最常用的随机策略,其含义是选取使得动作值函数最大的动作的概率为1ϵ+ϵ|A(s)|1−ϵ+ϵ|A(s)|,而其他动作的概率为等概率,都为ϵ|A(s)|ϵ|A(s)|ϵgreedyϵ−greedy策略平衡了利用和探索,其中选取动作值函数最大的部分为利用,其他非最优动作仍有概率为探索部分

高斯策略

一般高斯策略可以写成πθ=μθ+ϵϵN(0,σ2)πθ=μθ+ϵ,ϵ∼N(0,σ2)。其中μθμθ为确定性部分,ϵϵ为零均值的高斯随机噪声。高斯策略也平衡了利用和探索,其中利用由确定性部分完成,探索有ϵϵ完成。高斯策略在连续系统的强化学习中应用广泛。

玻尔兹曼分布

对于动作空间是离散的或者动作空间并不大的情况,可采用玻尔兹曼分布作为随机策略,即

π(a|s,θ)=exp(Q(s,a,θ))bexp(h(s,b,θ))π(a|s,θ)=exp(Q(s,a,θ))∑bexp(h(s,b,θ))

其中Q(s,a,θ)Q(s,a,θ)为动作值函数,该策略的含义是动作值函数大的动作被选中的概率大,动作值函数小的动作被选中的概率小
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值