【强化学习】时序差分方法

本文深入探讨了强化学习中的时序差分(TD)方法,包括其与蒙特卡洛(MC)方法和动态规划(DP)的区别。通过具体实例解释了TD方法的工作原理,并对比了TD(0)和常量MC在批量训练下的性能。此外,还介绍了Sarsa和Q-learning两种重要的TD控制算法,以及Maximization Bias和Double Learning的概念。

目录

时序差分预测

 DP、MC、TD之间的区别

随机游走问题比较批量训练下的TD(0)和常量​MC的性能

Sarsa:On-policy 时序差分(TD)控制

Q-learning:Off-policy TD方法

on-policy和off-policy的区别

Maximization Bias和Double Learning

Expected Sarsa

Double Learning


时序差分预测

时序差分方法结合了蒙特卡洛方法和动态规划的思想,在强化学习中应用最为广泛。

(1)直接从智能体与环境交互的经验中学习。

(2)无须等待交互的结果,可以边交互边学习,不需要等整个episode结束。

预测问题:即给定强化学习的5个要素:状态集S,动作集A,即时奖励R,衰减因子\gamma,给定策略\pi,求解该策略的状态价值函数v(\pi )

控制问题:也就是求解最优的价值函数的策略。给定强化学习的5个要素:状态集S,动作集A,即时奖励R,衰减因子\gamma,探索率\epsilon,求解最优的动作价值函数q_{*}\pi _{*}

已知every - visit的MC算法的价值计算函数是

在MC方法中,必须要等到episode结束,有了return之后才能更新,在有些应用中episode时间很长,或者是连续型任务,根本没有episodes。而TD方法只需要等到下一个time step即可,即在时刻T+1时,TD方法立即形成一个target,并使用观测到的Reward(R_{t+1})和估计的V_{t+1}进行更新。比如最简单的TD(0)算法:

在TD(0)中,括号里的数值是一种误差,它衡量的是S_{t}的估计值与更好的估计R_{t+1}+\gamma V(S_{t+1})之间的差异,这个数值被称为TD误差。

\delta_{t}=R_{t+1}+\gamma V(S_{t+1})-V(S_{t})

 DP、MC、TD之间的区别

由上图可以看出,DP算法在计算某个状态S_{t}的价值时,会考虑接下来所有可能的状态S_{t+1}以及切换状态后所得r_{t+1}

MC在更新一个状态时,只考虑其中一个分支(episode)来更新。所以MC需要生成很多个分支来提高准确性。

TD算法只需要考虑切换状态后所得奖励r_{t+1}S_{t+1}

时序差分强化学习(Temporal Difference Reinforcement Learning, TDRL)是一类强化学习算法,结合了动态规划和蒙特卡洛方法的思想。它通过使用经验数据进行增量式的更新,同时利用了当前和未来的估计值来逼近最优值函数。 时序差分强化学习方法的核心思想是通过估计值函数的差分来更新值函数的估计值。在每个时间步,智能体观察到当前状态、选择动作、观察到下一个状态和收到奖励。然后,根据差分误差TD误差)来更新值函数的估计值。 TD误差定义为当前状态下的估计值与下一个状态的估计值之差加上即时奖励。TD误差可以表示为: TD_error = R + γV(s') - V(s) 其中,R是即时奖励,V(s)是当前状态s的估计值,V(s')是下一个状态s'的估计值,γ是折扣因子,用于衡量未来奖励的重要性。 根据TD误差,可以使用不同的更新规则来更新值函数的估计值。常见的时序差分强化学习算法包括以下几种: 1. SARSA(State-Action-Reward-State-Action):SARSA算法使用状态-动作对的估计值来更新Q值函数的估计值。在每个时间步,智能体根据当前策略选择动作,观察到下一个状态和奖励,并根据TD误差来更新Q值函数的估计值。 2. Q-learning:Q-learning算法也是一种基于TD误差的更新规则,但它使用了下一个状态的最大估计值来更新Q值函数的估计值。在每个时间步,智能体根据当前策略选择动作,观察到下一个状态和奖励,并通过TD误差和最大估计值来更新Q值函数的估计值。 3. TD(λ):TD(λ)算法是一种使用λ折扣因子的时序差分强化学习算法。它通过考虑未来多个时间步的估计值来更新值函数的估计值。TD(λ)算法将过去若干时间步的TD误差进行加权求和,并根据加权和来更新值函数的估计值。 时序差分强化学习方法具有较高的效率和适应性,可以在每个时间步骤中进行更新,不需要等到任务结束后才进行更新。它能够快速收敛到最优策略,并且可以处理具有部分可观测性和连续状态空间的问题。该方法在许多领域中都有广泛的应用,如机器人控制、游戏智能、自动驾驶等。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值