Reinforcement Learning_By David Silver笔记五: Model Free Control

最新推荐文章于 2025-09-22 16:57:43 发布

原创最新推荐文章于 2025-09-22 16:57:43 发布 · 301 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#MDP #DP #MC

深度学习同时被 3 个专栏收录

67 篇文章

订阅专栏

机器学习

40 篇文章

订阅专栏

强化学习

9 篇文章

订阅专栏

本文主要探讨了在未知环境中进行强化学习的策略，包括On-Policy和Off-Policy学习方法。在已知环境的policy improvement中，通过状态转移矩阵选择最优动作，而在未知环境中，则通过最大化动作值函数Q(s,a)来更新策略。介绍了On-Policy的Monte-Carlo控制和Temporal-Difference学习，以及Off-Policy学习中的重要采样方法。Q-Learning作为Off-Policy学习的一种，通过更新动作值函数并采用贪婪策略，即使得在假设的动作基础上寻找最佳路径。" 127113966,9860823,使用Flutter创建自适应跨平台应用,"['Flutter', 'Android', 'iOS']

(Optimise the value function of an unknown MDP)

On-policy learning —— Learn about policy π from experience sampled from π

Off-policy learning —— Learn about policy π from experience sampled from u

On-Policy Monte-Carlo Control
如果在已知environment情况下policy improvement更新方式是π‘(s)=argmaxa∈ARas+Pass′V(s‘)，可以看出它的解决方案是通过状态转移矩阵把所有可能转移到的状态得到的值函数都计算出来，从中来选择最大的，但未知environment则没有状态转移矩阵，因此只能通过最大化动作值函数来更新policy即π‘(s)=argmaxa∈AQ(s,a)。由于improvement的过程需要动作值函数，那么在policy evaluation的过程中针对给定的policy需要计算的V(s)也替换成Q(s,a)。

Policy evaluation: Monte-Carlo policy evaluation Q=qπ

Policy improvement: e-greedy exploration（以一定的概率e选择随机的action）

GLIE-Greedy in the Limit with Infinite Exploration

On-Policy Temporal-Difference Learning

和MC相比，TD的优势在于：a.低方差 b.在线 c. 不完全的序列，所以很自然地，在我们的控制循环中使用TD代替MC，每次时序后update

3. Off-Policy Learning

从其他地方学到的经验再次使用，使用探索策略时能得到最优策略，使用一次策略时能得到多个策略
如果把两个策略当成两种分布P(X),Q(X)，并且假设reward函数为f(X)，两种分布中reward期望为:
这里写图片描述
因此可以从μ中来估计π获得的return，这个方法称为Importance Sampling。

Off-Policy Monte-Carlo是在第四课的Monte-Carlo Learning上的改进，

Q-Learning，更新动作值函数，说在某个已知策略下选择了下一个时刻的动作At+1，以及下一个时刻的状态St+1和奖赏Rt+1，将目标策略选择的动作A′替换到更新公式中

与上面方法不同的是，可以同时更新π和μ，且π是greedy的方式，而μ是采用了ϵϵ-greedy方式。Q-Learning的target为Rt+1+γQ(St+1,A′)=Rt+1+γQ(St+1,argmaxa′Q(St+1,a′))=Rt+1+maxa′γQ(St+1,a′)，这里因为选择使Q最大的a′，所以后面的式子就是在求最大的Q。