8、强化学习中的TD学习与SARSA算法详解

强化学习中的TD学习与SARSA算法详解

1. 时序差分学习(Temporal Difference Learning)
1.1 直观理解

为了更好地理解时序差分(TD)学习的工作原理,我们先来看一个简单的例子。假设有一个智能体在一个类似走廊的环境中学习导航,该环境如图3.1所示。这个环境总共有五个状态:(s_1)、(s_2)、(s_3)以及两个终止状态(s_{T1})和(s_{T2}),其中(s_{T2})是目标状态,用星号表示。智能体有两个动作可选:(a_{UP})(向上移动一格)和(a_{DOWN})(向下移动一格)。智能体总是从状态(s_1)开始游戏,当到达任意一个终止状态时游戏结束。如果智能体到达(s_{T2}),将获得奖励1,在其他状态获得奖励0。智能体的折扣率(\gamma)为0.9。由于智能体更看重尽早获得的奖励,所以最优策略是用最少的步数到达(s_{T2}),在这个例子中最少步数是3步。

对于这个简单的环境,Q函数可以用表格形式表示,即每个状态 - 动作对((s, a))对应一个单元格。由于到达终止状态后智能体不能再行动,所以总共有六对状态 - 动作对。最优Q函数定义为在状态(s)采取动作(a),并随后遵循最优策略所获得的预期累积折扣奖励。在这个环境中,最优策略是在所有状态都选择(a_{DOWN})动作,因为这是从任何其他状态最快到达(s_{T2})的方式。图3.2以表格形式展示了该环境的最优Q值。

下面是一些最优Q值的计算示例:
- ((s_0, a_{UP})):智能体移出走廊,获得奖励0,回合结束,所以(Q^ (s_0, a_{UP}) = 0)。
- ((s_3, a_{DOWN})):智能体到达终止状态,获得奖

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值