强化学习笔记3

本文介绍了策略梯度的基本概念,包括策略、回报、轨迹和奖励函数,并讨论了蒙特卡洛与时序差分强化学习的区别。此外,文章详细解析了REINFORCE的计算过程,并深入讲解了PPO算法,特别是其避免重要性采样偏差的策略。还探讨了on-policy与off-policy策略的优缺点,以及在重要性采样中需要注意的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

策略梯度

1、基本概念
policy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。一般地,我们将policy写成 π。
在这里插入图片描述

Return(回报): 一个回合(Episode)或者试验(Trial)所得到的所有的reward的总和,也被人们称为Total reward。一般地,我们用 R 来表示它。
Trajectory: 一个试验中我们将environment 输出的 s 跟 actor 输出的行为a,把这个s跟a全部串起来形成的集合,我们称为Trajectory,即
在这里插入图片描述
Reward function: 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数,它是一个 function。也就是给一个 s1,a1,它告诉你得到 r1​。给它s2​,a2,它告诉你得到r2​。 把所有的 r 都加起来,我们就得到了R(τ) ,代表某一个 trajectory τ 的 reward。
Expected reward:在这里插入图片描述Reinforce: 基于策略梯度的强化学习的经典算法,其采用回合更新的模式。

问题:
1、对于梯度策略的两种方法,蒙特卡洛(MC)强化学习和时序差分(TD)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值