8、强化学习中的TD学习与SARSA算法详解

脑补型产品

于 2025-10-13 11:22:39 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习入门指南文章标签： TD学习 SARSA算法强化学习

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154598523

深度强化学习入门指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习中的TD学习与SARSA算法详解

1. 时序差分学习（Temporal Difference Learning）

1.1 直观理解

为了更好地理解时序差分（TD）学习的工作原理，我们先来看一个简单的例子。假设有一个智能体在一个类似走廊的环境中学习导航，该环境如图3.1所示。这个环境总共有五个状态：(s_1)、(s_2)、(s_3)以及两个终止状态(s_{T1})和(s_{T2})，其中(s_{T2})是目标状态，用星号表示。智能体有两个动作可选：(a_{UP})（向上移动一格）和(a_{DOWN})（向下移动一格）。智能体总是从状态(s_1)开始游戏，当到达任意一个终止状态时游戏结束。如果智能体到达(s_{T2})，将获得奖励1，在其他状态获得奖励0。智能体的折扣率(\gamma)为0.9。由于智能体更看重尽早获得的奖励，所以最优策略是用最少的步数到达(s_{T2})，在这个例子中最少步数是3步。

对于这个简单的环境，Q函数可以用表格形式表示，即每个状态 - 动作对((s, a))对应一个单元格。由于到达终止状态后智能体不能再行动，所以总共有六对状态 - 动作对。最优Q函数定义为在状态(s)采取动作(a)，并随后遵循最优策略所获得的预期累积折扣奖励。在这个环境中，最优策略是在所有状态都选择(a_{DOWN})动作，因为这是从任何其他状态最快到达(s_{T2})的方式。图3.2以表格形式展示了该环境的最优Q值。

下面是一些最优Q值的计算示例：
- ((s_0, a_{UP}))：智能体移出走廊，获得奖励0，回合结束，所以(Q^ (s_0, a_{UP}) = 0)。
- ((s_3, a_{DOWN}))：智能体到达终止状态，获得奖