强化学习中的TD学习与SARSA算法详解
1. 时序差分学习(Temporal Difference Learning)
1.1 直观理解
为了更好地理解时序差分(TD)学习的工作原理,我们先来看一个简单的例子。假设有一个智能体在一个类似走廊的环境中学习导航,该环境如图3.1所示。这个环境总共有五个状态:(s_1)、(s_2)、(s_3)以及两个终止状态(s_{T1})和(s_{T2}),其中(s_{T2})是目标状态,用星号表示。智能体有两个动作可选:(a_{UP})(向上移动一格)和(a_{DOWN})(向下移动一格)。智能体总是从状态(s_1)开始游戏,当到达任意一个终止状态时游戏结束。如果智能体到达(s_{T2}),将获得奖励1,在其他状态获得奖励0。智能体的折扣率(\gamma)为0.9。由于智能体更看重尽早获得的奖励,所以最优策略是用最少的步数到达(s_{T2}),在这个例子中最少步数是3步。
对于这个简单的环境,Q函数可以用表格形式表示,即每个状态 - 动作对((s, a))对应一个单元格。由于到达终止状态后智能体不能再行动,所以总共有六对状态 - 动作对。最优Q函数定义为在状态(s)采取动作(a),并随后遵循最优策略所获得的预期累积折扣奖励。在这个环境中,最优策略是在所有状态都选择(a_{DOWN})动作,因为这是从任何其他状态最快到达(s_{T2})的方式。图3.2以表格形式展示了该环境的最优Q值。
下面是一些最优Q值的计算示例:
- ((s_0, a_{UP})):智能体移出走廊,获得奖励0,回合结束,所以(Q^ (s_0, a_{UP}) = 0)。
- ((s_3, a_{DOWN})):智能体到达终止状态,获得奖
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



