强化深度学习task-04

最新推荐文章于 2025-02-01 12:51:26 发布

原创最新推荐文章于 2025-02-01 12:51:26 发布 · 172 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了Q-learning的基本概念，探讨了状态价值函数的计算方法，并对比了蒙特卡洛法与时间差分法的不同之处。此外，还详细解释了Q-function的概念及其在强化学习中的应用。

Q-learning
参考资料
Q-learning (Basic Idea)：https://www.bilibili.com/video/BV1MW411w79n?p=3
Q-learning (Advanced Tips)： https://www.bilibili.com/video/BV1MW411w79n?p=4
Q-learning (Continuous Action)：https://www.bilibili.com/video/BV1MW411w79n?p=5
Actor-Critic：https://www.bilibili.com/video/BV1MW411w79n?p=6
教程
一、介绍（introduction）

状态价值函数（state value function）
当看到一个状态s时，用actor $π\pi$ 做出一系列行动选择后累计得分的期望值（ $Vπ(s)V^\pi(s)$ ）
估算 $Vπ(s)V^\pi(s)$ 的方法
（1）蒙特卡洛法（MC）：随机产生state,计算reward。缺点：很难覆盖到所有的状态，误差较大，而且方差比较大。
（2）Temporal-difference(TD)approach:针对有的游戏很长的情况，这种方法不需要必须将游戏进行到底。因为 $Vπ(st+1)V^\pi(s_{t+1})$ 与 $Vπ(st)V^\pi(s_{t})$ 之间的差值就是 $r_t$ ，因此，当预测出 $Vπ(st)V^\pi(s_{t})$ ，可计算出 $Vπ(st+1)V^\pi(s_{t+1})$ ： $Vπ(st+1)=Vπ(st)+rtV^\pi(s_{t+1})=V^\pi(s_{t})+r_t$ 。缺点：如果 $Vπ(st)V^\pi(s_{t})$ 算不准，则 $Vπ(st+1)V^\pi(s_{t+1})$ 也会算不准，但方差比较小。这种方法用的更多
两种方法得出的结果可能不一样，比如下面这个例子：

一共进行了8次采样，第一次是先 $s_a$ 状态，然后又到 $s_b$ 状态，最后reward为0，还有7次是直接采样到 $s_b$ ，1次reward是0，6次是1，对于 $s_b$ 而言，价值为6/8=3/4，对于 $s_a$ 而言，不同方法价值函数也不同。MC方法的结果是0（根据第一次采样结果），TD的结果是3/4（ $s_a$ 通过reward=0到达 $s_b$ ，所以最终结果就是 $Vπ(sb)V^\pi(s_b)$ ）
Q-function
两种写法：

从而可以对 $π\pi$ 进行更新：

可以证明 $Vπ<=Vπ′V^\pi<=V^{\pi'}$ :

在具体计算Q时用到下面的方法：
在这里插入图片描述
左右两个Q有中间这个等式约束。首先将右边的Q固定住，用中间的公式去拟合左边的Q，左边的Q在更新多次后再赋值给右面的Q，然后再用中间公式更新左边的Q

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。