【动手学强化学习】part4-时序差分算法

SARSA与Q-learning算法学习总结

原创

已于 2024-10-28 17:52:22 修改 · 1k 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #算法

于 2024-10-24 11:12:28 首次发布

阐述、总结【动手学强化学习】章节内容的学习情况，复现并理解代码。

一、算法背景

1.1目标

给定“黑盒”环境，求解最优policy

1.2问题

蒙特卡罗方法（Monte Carlo，MC）估计中，对于每一个q(s,a)的估计需要采样N个episode才能进行，时间效率低。
采用greedy策略，可能会在与环境交互过程中，导致某些(s,a)状态动作对永远没有在episode中出现。

1.3解决方法

🌟时序差分（Temporal Difference, TD）
MC估计的核心思想
$\mathbb{E}[X]\approx\bar{x}:=\frac1N\sum_{i=1}^Nx_i.$
令
$w_{k+1}=\frac{1}{k}\sum_{i=1}^{k}x_{i},\quad k=1,2,\ldots$
则可推导出：
$w_{k+1}=w_k-\frac{1}{k}(w_k-x_k).$
同理，action value的定义式也为期望，那么则有：
$q_{k+1}=q_k-\frac{1}{k}(q_k-G_k).$
按定义而言 $G_k$ 为从(s,a)出发第k次采样episode的累计奖励值。因此基于上述推导，可以采取“增量式”的思想去估计q(s,a)，不必再像MC算法中需等待N个episode都采样完再估计q(s,a)值，边采样就能边估计：
$Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha[r_t+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t)]$
（❓这块的数学转换还有点没梳理清楚）
额外说明：
① TD error的定义：
$r_t+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t)$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。