时序差分方法

最新推荐文章于 2025-01-09 22:27:35 发布

火鸡哥

最新推荐文章于 2025-01-09 22:27:35 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习强化学习

本文链接：https://blog.youkuaiyun.com/u012587024/article/details/81383303

33 篇文章

订阅专栏

3 篇文章

订阅专栏

本文介绍了时序差分方法的基本原理，它是强化学习中的一种重要技术，通过结合动态规划和蒙特卡罗方法的优点实现了高效的学习过程。文章详细解释了时序差分方法的公式推导，并对比了Sarsa、Sarsamax(Q学习)和预期Sarsa三种不同的实现方式及其性能特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

动态规划的公式是在每执行一步策略后更新值函数，但必须模型可知；
蒙特卡罗方法对末知模型进行动态值估计，但需要在完成一个采样阶段后才能更新值函数。
而时序差分方法则结合了动态规划和蒙特卡罗方法的思想，做到更高效的免模型学习。

动态规划：
$v_π(s) = E(r+g*v_π(s'))$
$E：$ 数学期望， $g：$ 折扣率；

蒙特卡罗方法：
$V_{t+1}(s) = V_t(s)+a(v_{t+1}(s)-V_t(s))$
$V_t(s)：$ t阶段后状态 $s$ 的状态值， $v_t(s)：$ 第t阶段状态 $s$ 的状态值；

将动态规划中的公式代入蒙特卡罗方法中的公式得：

$V_{t+1}(s)$
$= V_t(s)+a(E(r+g*v_π(s'))-V_t(s))$
$= V_t(s)+a(r_{t+1}+g*V_t(s')-V_t(s))$

动作值函数也可以使用这公式，因此：

Q t + 1 (s, a) = Q t (s, a) + a (r t + 1 + g * Q t (s', a') - Q t (s, a))

$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*Q_t(s',a')-Q_t(s,a))$

根据 $Q_t(s',a')$ 的选择不同，可以分三种方法：

sarsa0:根据e贪婪策略随机选择下一个状态 $s'$ 的动作 $a'$ ，并将 $Q_t(s',a')$ 作为预测的动作值；
$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*Q_t(s',a')-Q_t(s,a))$

sarsamax(Q学习):将下一个状态 $s'$ 的最大动作值作为预测的动作值；
$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*max(Q_t(s',a'))-Q_t(s,a))$

预期sarsa:根据e贪婪策略，将下一个状态 $s'$ 的状态值作为预测的动作值；
$Q_{t+1}(s,a) = Q_t(s,a)+a(r_{t+1}+g*\sum_{a'∈A(s')}π(a'|s')*Q_t(s',a')-Q_t(s,a))$

1､Sarsa 和预期 Sarsa 都是异同策略 TD 控制算法。在这种情况下，我们会根据要评估和改进的相同（e贪婪策略）策略选择动作。

2､Sarsamax 是离线策略方法，我们会评估和改进（e贪婪）策略，并根据另一个策略选择动作。

3､既定策略 TD 控制方法（例如预期 Sarsa 和 Sarsa）的在线效果比新策略 TD 控制方法（例如 Sarsamax）的要好。

4､预期 Sarsa 通常效果比 Sarsa 的要好。

5､Q 学习的在线效果更差（智能体在每个阶段平均收集的奖励更少），但是能够学习最优策略，以及Sarsa 可以获得更好的在线效果，但是学到的是次最优“安全”策略。