8、强化学习中的TD学习与SARSA算法详解

强化学习中的TD学习与SARSA算法详解

在强化学习领域,时间差分(Temporal Difference, TD)学习和SARSA算法是非常重要的概念。下面我们将详细探讨TD学习的原理、SARSA算法中的动作选择策略以及SARSA算法的具体实现。

1. 时间差分学习的直观理解

为了更好地理解TD学习的工作原理,我们先来看一个简单的例子。假设有一个智能体正在学习玩一个类似走廊的简单环境游戏,如图3.1所示。这个环境总共有五个状态:(s_1)、(s_2)、(s_3)以及两个终止状态(s_{T1})和(s_{T2}),其中(s_{T2})是目标状态,用星号表示。智能体只有两个动作可选:(a_{UP})(向上移动一格)和(a_{DOWN})(向下移动一格)。游戏总是从状态(s_1)开始,当智能体到达任意一个终止状态时游戏结束。如果智能体到达(s_{T2}),将获得奖励1,在其他状态获得奖励0。智能体的折扣率(\gamma)为0.9。

由于这个环境非常简单,Q函数可以用一个表格来表示,即表格型Q函数,每个状态 - 动作对((s, a))对应表格中的一个单元格。因为到达终止状态后智能体不能再行动,所以总共有六对状态 - 动作对。最优Q函数定义为在状态(s)采取动作(a),并随后遵循最优策略所获得的预期累积折扣奖励。对于这个环境,最优策略是在所有状态下都选择(a_{DOWN})动作,因为这是从任何其他状态最快到达(s_{T2})的方式。

下面是一些最优Q值的计算示例:
- ((s_0, a_{UP})):智能体移出走廊,获得奖励0,回合结束,所以(Q^ (s_0, a_{UP}) = 0)。
- ((s_3, a_{DOWN})):智能体到达

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值