深度学习算法(第36期)----强化学习之时间差分学习与近似Q学习

智能算法

于 2019-11-18 08:00:00 发布

阅读量627

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/x454045816/article/details/106686772

版权

上期我们一起学习了强化学习中的马尔科夫决策过程的相关知识，
深度学习算法(第35期)----强化学习之马尔科夫决策过程
今天我们学习强化学习中的时间差分学习与Q学习的相关知识。

时间差分学习

具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程，但是智能体最初不知道转移概率是什么，并且它不知道奖励会是什么。它必须经历每一个状态和每一次转变并且至少知道一次奖励，并且如果要对转移概率进行合理的估计，就必须经历多次。

时间差分学习（TD 学习）算法与数值迭代算法非常类似，但考虑到智能体仅具有 MDP 的部分知识。一般来说，我们假设智能体最初只知道可能的状态和动作，没有更多了。智能体使用探索策略，例如，纯粹的随机策略来探索 MDP，并且随着它的发展，时间差分学习算法基于实际观察到的转换和奖励来更新状态值的估计，如下：

其中 α是学习率（比如：0.01）。
TD 学习与随机梯度下降有许多相似之处，特别是它一次处理一个样本的行为。就像 SGD 一样，只有当你逐渐降低学习率时，它才能真正收敛（

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。