深度强化学习 task03-2

本文介绍了强化学习中的蒙特卡洛MC和时序差分TD两种关键方法的区别,并探讨了on-policy与off-policy策略评估的不同之处。同时,文章还详细解释了PPO/TRPO算法的工作原理及其优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 蒙特卡洛MC和时序差分TD的区别
在这里插入图片描述
蒙特卡洛(回合更新):一个序列产生之后计算总收益,然后再更新
时序差分(单步更新):每走一步进行一次更新
强化学习主要采用的是蒙特卡洛的回合更新的方式
2. 具体计算方法

在这里插入图片描述
具体代码为
在这里插入图片描述
计算输出action时用到类似交叉熵损失的方法,但由于真实的action未知,因此在交叉熵前乘一个权重(奖励分数),分数越高的输出这样的action概率越大,代码为
在这里插入图片描述
在这里插入图片描述
3.on policy 和 off policy
on policy:一边互动一边学习
off policy:先看别人下棋自己再学
主要采用off policy
由于预先不知道各action的出现概率分布p(x)p(x)p(x),只能以另一种概率q(x)q(x)q(x)进行采样,因此对期望做一个转化
在这里插入图片描述

在这里插入图片描述
最后这个JJJ就是新的目标函数
4. PPO/TRPO
θ\thetaθθ′\theta'θ的分布要差不多,因此要进行一种操作,使得两者相似,在原基础上减一个值,作为constraint,这就是PPO
在这里插入图片描述
PPO的前身是TRPO,
在这里插入图片描述
实际操作中,PPO更容易。PPO减掉的哪一项表示的是两者行为上的距离(没懂)
具体的操作:
在这里插入图片描述
这里面β\betaβ需要动态调整(蓝色方框里面)
这里面据说算KLKLKL的时候很复杂,然后对PPO做了改进
在这里插入图片描述
这里面clipclipclip的功能是对第一项作一个截断,小于1−ϵ1-\epsilon1ϵ就输出1−ϵ1-\epsilon1ϵ,大于1+ϵ1+\epsilon1+ϵ就输出1+ϵ1+\epsilon1+ϵ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值