强化学习基础知识笔记[4] - 时间差分法

最新推荐文章于 2024-07-26 17:49:42 发布

AaronXueNF

最新推荐文章于 2024-07-26 17:49:42 发布

阅读量613

点赞数 2

分类专栏：强化学习笔记文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/AaronXueNF/article/details/120712250

版权

本文深入探讨了强化学习中的时间差分法（TD方法），包括策略评估与改善、回报函数与值函数的定义。介绍了动态规划、蒙特卡罗方法与TD方法的异同，特别是TD方法通过结合两者优点，减少方差。进一步讲解了TD(λ)方法，从前向和后向视角阐述其工作原理，以及如何在Sarsa(λ)算法中应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考资料
[1] 强化学习入门第四讲时间差分法（TD方法）
本文主要是对该资料学习的笔记，并且加入了一些自己的想法，如有错误欢迎指出。

强化学习的分类

无模型强化学习 - 理论

强化学习的核心问题

强化学习的核心问题为：

策略评估部分：值函数、状态-行为值函数的估计问题！
策略改善部分：给定值函数下， $\pi(a|s)$ 的选取问题！

回报函数、值函数定义

累计回报函数
$G_t = R_{t+1} + \gamma R_{t+2} + ... = \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} \tag{1.1}$
状态值函数
$v_\pi (s) = E_\pi[G_t] = E_\pi \left[ \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} | S_t = s \right] \tag{1.2}$
行为值函数
$q_\pi (s,a) = E_\pi \left[ \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} | S_t = s , A_t = a \right] \tag{1.3}$
可见状态值函数和行为值函数的定义是在策略 $\pi$ 下各次实现中累计回报函数的数学期望。

动态规划方法值函数：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。