强化学习_03_DataWhale表格方法习题

本文介绍了强化学习的基本概念,包括马尔可夫决策过程(MDP)的组成元素、强化学习的流程、Sarsa算法的工作原理及其与Q学习的区别。通过对比同策略(on-policy)与异策略(off-policy),帮助读者理解不同算法的特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

习题

3-1 构成强化学习的马尔可夫决策过程(MDP)的四元组有哪些变量?

状态(s)、动作(a)、状态转移概率§、奖励®

3-2 请通俗化描述强化学习的“学习”流程

针对一项任务,罗列实现这个任务的全部路径,并计算不同路径的得分,选择最优的路径。难点在于如何在当前状态进行行动,如何平衡当下与未来的奖励来做全局最优策略。
对于行动我们就采用了两个概率的乘积来表示,即行动概率 π ( a ∣ s ) \pi(a|s) π(as)、状态转移概率 T ( s ′ ∣ s , a ) T(s'|s, a) T(ss,a)。对于奖励,我们采用折扣率,将立刻与未来奖励加和,即 G t = r t + 1 + γ G t + 1 G_{t}=r_{t+1} + \gamma G_{t+1} Gt=rt+1+γGt+1。 然后将行动与奖励乘积即我们的学习过程,也叫贝尔曼方程。

3-3 请描述基于Sarsa 算法的智能体的学习过程。

Sarsa是直接估计Q表格,得到Q表格,就可以更新策略。对于环境和智能体。两者每交互一次以后,智能体会向环境输出动作,接着环境会反馈给智能体当前时刻的状态和奖励。那么智能体此时会进行两步操作:
1- 用被训练的Q表格,对应环境反馈状态和奖励选取对应的动作进行输出。
2- 基于 ( S t , A t , R t + 1 , S t + 1 , A t + 1 ) (S_t, A_t, R_{t+1}, S_{t+1}, A_{t+1}) (St,At,Rt+1,St+1,At+1)这几个值,并直接使用 A t + 1 A_{t+1} At+1去更新Q表格

3-4 Q 学习(Q-learning)算法和Sarsa 算法的区别?

  • Sarsa优化的是它实际执行的策略,直接拿下一步会执行的动作来优化Q表格,同策略在学习的过程中,只存在一种策略,它用一种策略去做动作的选取,也只用一种策略去优化。
  • Q学习有两种不同的策略:目标策略和行为策略
    • 目标策略:
      • 需要去学习的策略
      • 可以根据自己的经验来学习最优的策略,不需要去和环境交互
    • 行为策略(探索环境的策略):
      • u可以大胆地去探索到所有可能的轨迹,采集轨迹,采集数据,把采集到的数据喂给目标策略去学习
      • 目标函数优化的时候,Q不会管你下一步去往哪里,它就只选收益最大的策略
      • 同时异策略可以让我们学校其他智能体的行为,模仿学习,学习人或者其他智能体产生的轨迹

3-5 同策略(on-policy)和异策略(off-policy)的区别

基本同上。
比较Q 学习算法和Sarsa 算法的更新公式可以发现,Sarsa 算法并没有选取最大值的操作。
异策略算法是非常激进的,希望每一步都获得最大的利益;
同策略算法则相对来说偏保守,会选择一条相对安全的迭代路线。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Scc_hy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值