习题
3-1 构成强化学习的马尔可夫决策过程(MDP)的四元组有哪些变量?
状态(s)、动作(a)、状态转移概率§、奖励®
3-2 请通俗化描述强化学习的“学习”流程
针对一项任务,罗列实现这个任务的全部路径,并计算不同路径的得分,选择最优的路径。难点在于如何在当前状态进行行动,如何平衡当下与未来的奖励来做全局最优策略。
对于行动我们就采用了两个概率的乘积来表示,即行动概率
π
(
a
∣
s
)
\pi(a|s)
π(a∣s)、状态转移概率
T
(
s
′
∣
s
,
a
)
T(s'|s, a)
T(s′∣s,a)。对于奖励,我们采用折扣率,将立刻与未来奖励加和,即
G
t
=
r
t
+
1
+
γ
G
t
+
1
G_{t}=r_{t+1} + \gamma G_{t+1}
Gt=rt+1+γGt+1。 然后将行动与奖励乘积即我们的学习过程,也叫贝尔曼方程。
3-3 请描述基于Sarsa 算法的智能体的学习过程。
Sarsa是直接估计Q表格,得到Q表格,就可以更新策略。对于环境和智能体。两者每交互一次以后,智能体会向环境输出动作,接着环境会反馈给智能体当前时刻的状态和奖励。那么智能体此时会进行两步操作:
1- 用被训练的Q表格,对应环境反馈状态和奖励选取对应的动作进行输出。
2- 基于
(
S
t
,
A
t
,
R
t
+
1
,
S
t
+
1
,
A
t
+
1
)
(S_t, A_t, R_{t+1}, S_{t+1}, A_{t+1})
(St,At,Rt+1,St+1,At+1)这几个值,并直接使用
A
t
+
1
A_{t+1}
At+1去更新Q表格
3-4 Q 学习(Q-learning)算法和Sarsa 算法的区别?
- Sarsa优化的是它实际执行的策略,直接拿下一步会执行的动作来优化Q表格,同策略在学习的过程中,只存在一种策略,它用一种策略去做动作的选取,也只用一种策略去优化。
- Q学习有两种不同的策略:目标策略和行为策略
- 目标策略:
- 需要去学习的策略
- 可以根据自己的经验来学习最优的策略,不需要去和环境交互
- 行为策略(探索环境的策略):
u
可以大胆地去探索到所有可能的轨迹,采集轨迹,采集数据,把采集到的数据喂给目标策略去学习- 目标函数优化的时候,Q不会管你下一步去往哪里,它就只选收益最大的策略
- 同时异策略可以让我们学校其他智能体的行为,模仿学习,学习人或者其他智能体产生的轨迹
- 目标策略:
3-5 同策略(on-policy)和异策略(off-policy)的区别
基本同上。
比较Q 学习算法和Sarsa 算法的更新公式可以发现,Sarsa 算法并没有选取最大值的操作。
异策略算法是非常激进的,希望每一步都获得最大的利益;
同策略算法则相对来说偏保守,会选择一条相对安全的迭代路线。