【强化学习】时序差分方法

原创

已于 2022-08-11 11:53:12 修改 · 1.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2021-06-25 19:20:27 首次发布

本文深入探讨了强化学习中的时序差分(TD)方法，包括其与蒙特卡洛(MC)方法和动态规划(DP)的区别。通过具体实例解释了TD方法的工作原理，并对比了TD(0)和常量MC在批量训练下的性能。此外，还介绍了Sarsa和Q-learning两种重要的TD控制算法，以及Maximization Bias和Double Learning的概念。

目录

时序差分预测

DP、MC、TD之间的区别

随机游走问题比较批量训练下的TD(0)和常量MC的性能

Sarsa：On-policy 时序差分（TD）控制

Q-learning：Off-policy TD方法

on-policy和off-policy的区别

Maximization Bias和Double Learning

Double Learning

时序差分预测

时序差分方法结合了蒙特卡洛方法和动态规划的思想，在强化学习中应用最为广泛。

（1）直接从智能体与环境交互的经验中学习。

（2）无须等待交互的结果，可以边交互边学习，不需要等整个episode结束。

预测问题：即给定强化学习的5个要素：状态集 $S$ ，动作集 $A$ ，即时奖励 $R$ ，衰减因子 $\gamma$ ，给定策略 $\pi$ ，求解该策略的状态价值函数 $v(\pi )$ 。

控制问题：也就是求解最优的价值函数的策略。给定强化学习的5个要素：状态集 $S$ ，动作集 $A$ ，即时奖励 $R$ ，衰减因子 $\gamma$ ，探索率 $\epsilon$ ，求解最优的动作价值函数 $q_{*}$ 和 $\pi _{*}$ 。

已知every - visit的MC算法的价值计算函数是

在MC方法中，必须要等到episode结束，有了return之后才能更新，在有些应用中episode时间很长，或者是连续型任务，根本没有episodes。而TD方法只需要等到下一个time step即可，即在时刻 $T+1$ 时，TD方法立即形成一个target，并使用观测到的Reward（ $R_{t+1}$ ）和估计的 $V_{t+1}$ 进行更新。比如最简单的TD(0)算法：

在TD(0)中，括号里的数值是一种误差，它衡量的是 $S_{t}$ 的估计值与更好的估计 $R_{t+1}+\gamma V(S_{t+1})$ 之间的差异，这个数值被称为TD误差。

$\delta_{t}=R_{t+1}+\gamma V(S_{t+1})-V(S_{t})$

DP、MC、TD之间的区别

由上图可以看出，DP算法在计算某个状态 $S_{t}$ 的价值时，会考虑接下来所有可能的状态 $S_{t+1}$ 以及切换状态后所得 $r_{t+1}$ 。

MC在更新一个状态时，只考虑其中一个分支（episode）来更新。所以MC需要生成很多个分支来提高准确性。

TD算法只需要考虑切换状态后所得奖励 $r_{t+1}$ 和 $S_{t+1}$ 。

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。