目录
Maximization Bias和Double Learning
时序差分预测
时序差分方法结合了蒙特卡洛方法和动态规划的思想,在强化学习中应用最为广泛。
(1)直接从智能体与环境交互的经验中学习。
(2)无须等待交互的结果,可以边交互边学习,不需要等整个episode结束。
预测问题:即给定强化学习的5个要素:状态集,动作集
,即时奖励
,衰减因子
,给定策略
,求解该策略的状态价值函数
。
控制问题:也就是求解最优的价值函数的策略。给定强化学习的5个要素:状态集,动作集
,即时奖励
,衰减因子
,探索率
,求解最优的动作价值函数
和
。
已知every - visit的MC算法的价值计算函数是

在MC方法中,必须要等到episode结束,有了return之后才能更新,在有些应用中episode时间很长,或者是连续型任务,根本没有episodes。而TD方法只需要等到下一个time step即可,即在时刻时,TD方法立即形成一个target,并使用观测到的Reward(
)和估计的
进行更新。比如最简单的TD(0)算法:


在TD(0)中,括号里的数值是一种误差,它衡量的是的估计值与更好的估计
之间的差异,这个数值被称为TD误差。
DP、MC、TD之间的区别

由上图可以看出,DP算法在计算某个状态的价值时,会考虑接下来所有可能的状态
以及切换状态后所得
。

MC在更新一个状态时,只考虑其中一个分支(episode)来更新。所以MC需要生成很多个分支来提高准确性。

TD算法只需要考虑切换状态后所得奖励和
。

本文深入探讨了强化学习中的时序差分(TD)方法,包括其与蒙特卡洛(MC)方法和动态规划(DP)的区别。通过具体实例解释了TD方法的工作原理,并对比了TD(0)和常量MC在批量训练下的性能。此外,还介绍了Sarsa和Q-learning两种重要的TD控制算法,以及Maximization Bias和Double Learning的概念。
最低0.47元/天 解锁文章
888





