强化学习3-策略优化


前言

学习记录


一、基于策略函数的强化学习

没有学习价值函数,并没有评估每个状态的收益
直接学习策略函数。

二、策略优化

1.客观函数

用客观函数衡量策略的好坏

1,如果是可以结束的环境里,可以用开头状态的值(start value)
在这里插入图片描述
取关于策略的期望,v 1为第一个开始的状态,用最开始的这个值来决定策略好不好。因为这个开始的value决定了它后面所有可能得到的奖励。

2,如果是连续的环境(没有终止的环境)

在这里插入图片描述
d是关于一个到达稳定状态的马尔科夫链,每一个状态随机出现的概率点乘每个状态的价值。

或者

用每一步可能获得的平均奖励作为客观函数
在这里插入图片描述

或者

假设已知策略π,用这个策略跟环境进行交互,会产生一条轨迹,我们说这条轨迹就是τ ,采样了m mm条,用这m条轨迹取平均值作为它的价值
在这里插入图片描述
目标就是极大化客观函数

2.做法

1.可导

直接梯度做法

2.不可导

可以采用Derivative-free的方法。
1,CEM
在这里插入图片描述
假设参数是个集合,有关于参数θ \thetaθ的分布,刚开始的时候可能是个随机的高斯分布
根据分布P获得100个结果和策略,获得最好的前10%,根据这10个,然后再用极大似然优化重新对这个参数分布进行优化得到u,则改变P,然后重新找100个,重复操作。

2,Finite Difference
θ可能是很高维的,在每一个维度上加一个很小的扰动ϵ
加了扰动后,再减去原来的值,再除以这个很小的扰动ϵ \epsilonϵ。这样就可以近似element那个维度的梯度,重复这个做法,就会得到近似的梯度。
在这里插入图片描述

3.policy gradient

Likelihood ratios tricks(似然比)
在这里插入图片描述
后面那一部分叫score function
定义,就是说score function是求最大对数似然函数中让对数似然函数梯度等于0的梯度。

存在大量的数学推导,具体看https://blog.youkuaiyun.com/qq_43058281/article/details/114374909
最终结果在这里插入图片描述

3.方差

后面就是减小策略梯度中存在的方差过大问题

方法1:
对时序上面的因果关系运用进去,这样可以使得它不必要的项可以被去掉
在这里插入图片描述
likelihood和当前时间之前的奖励没有关系,所以去掉,然后可以提高稳定性,见笑啊方差

方法2:
引入Baseline减小variance
在这里插入图片描述
直接减去平均值,

4.Actor-critic

去掉Gt,Gt是实际采样得到的,是通过MC实际得到的sample,sample本身可以直接与Q函数关联的,所以Gt可以用Q函数来替代。
Q函数代表的意思是在当前的状态采取某个行为会得到多少的价值,和Gt概念是一样的在这里插入图片描述

Actor:意思就是现在的policy function,因为policy function是实际和环境交互,产生训练数据的角色的函数。
Critic:意思就是现在的value function,要去估计Q函数,评论表演者表演的好坏(做出这个动作实际会得到多少的价值)

Actor:θ 是actor的参数
Critic:w 是value function的参数
所以在优化过程中要同时优化θ和w。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值