强化学习(7)

强化学习(7)

策略梯度学习

强化学习另外一个分支

基于环境是否已知,基于策略来分有on、off policy

1.策略梯度思想

2.Reinforce算法

使用基于值函数的学习需要和环境交互,传统普通的 基于Q表,通过对应的target更新方式,采用绝对贪婪策略确定策略。

与环境交互得到值函数,输入神经网络再取到Q值比较大的地方,传统的Q-learning和DQN都是通过最优值函数。能否跳过值函数,直接获得策略

Value-based to policy-based  parametrise the policy πθ(s,a)=P[a|s,θ] 直接输出概率,基于策略学习的基本思想,基于值函数的学习,策略改进基于actor-critic 两种策略都有

策略学习优点:便于收敛,直接学习策略,基于值函数的学习,value-base基于值函数收敛;effective in high-dimensional or continuous action spaces;can learn stochastic policies

对于连续空间,输出Q值;若解平面有局部最优解,此时随机性可能缺乏,出现bug

缺点:

容易陷入局部最优解,因为直接更新策略,策略不断变化,第二次迭代,不断震荡,容易进入局部最优;评价不高效

策略函数如何近似?类似于DQN,采用神经网络近似,通过神经网络近似策略function以某种概率执行某种策略

通过神经网络输出一个概率,最后一层选用 激活函数softmax,对节点取平均值,只

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值