David Silver深度强化学习第4课-免模型预测

本文深入探讨了蒙特卡洛方法在强化学习中的应用,详细讲解了模型自由强化学习方法,特别是蒙特卡洛方法的两种解决策略:无模型和设计仿造模型。文章还介绍了探索性初始化的概念,以及如何通过策略改进和平均方法进行迭代计算。此外,对比了蒙特卡洛方法与时间差分方法的优缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://www.bilibili.com/video/av9831252
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/MC-TD.pdf

Model-Free reinforcement learning

在这里插入图片描述
在这里插入图片描述

方法1:Mente-Carlo Reinforement learning

(MC方法是最有效,应用最广泛的方法)
Monte Carlo methods 只依赖取样片段的tates, actions, and rewards 。这就是model-free。这时我们虽然没有充分了解environment,但是仍然可以得到optimal behavior。MC有两种解决方法:1.无模型;2.设计出一个仿造的模型,the model need only generate sample transitions这个模型只需要通过采样得到的状态转移概率, not the complete probability distributions of all possible transitions that is required for dynamic programming (DP)而不是需要像使用动态规划时需要的完整的转移概率。事实上,前一种概率往往很好获得,后一种概率不可得。MC解决RL问题based on 采样值的平均return: averaging sample returns。MC方法适用于有限的过程,只有当每个片段完成后才会进行value estimates and policies changed。在动态规划方法中,为了保证值函数的收敛性,算法会对状态空间中的状态进行逐个扫描。无模型的方法充分评估策略值函数的前提是每个状态都能被访问到。因此,在蒙特卡洛方法中必须采用一定的方法保证每个状态都能被访问到。其中一种方法是探索性初始化。

探索性初始化:
所谓探索性初始化是指每个状态都有一定的几率作为初始状态。在给出基于探索性初始化的蒙特卡罗方法前,我们还需要给出策略改进方法,以及便于进行迭代计算的平均方法。
蒙特卡罗策略改进:
蒙特卡罗方法利用经验平均对策略值函数进行估计。当值函数被估计出来后,对于每个状态s ,通过最大化动作值函数,来进行策略的改进。即“policy improvement”。

在这里插入图片描述
(MC方法使用的是经验上的renturn而不是expect的return。)

MC policy evaluation分类:

  1. First-visit MC policy evaluation
    The first time-step t that state s is visited in an episode,
  2. Every-visit
    在这里插入图片描述
    我们可以利用策略产生很多次试验,每次试验(an episode)都是从任意的初始状态开始直到终止状态.
    The mean µ1, µ2, … of a sequence x1, x2, … can be computed
    incrementally,µk 在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    图3.4 探索性初始化蒙特卡罗方法

如图3.4为探索性初始化蒙特卡罗方法的伪代码。需要注意的是:

(1)第2步中,每次试验的初始状态和动作都是随机的,以保证每个状态行为对都有机会作为初始化。在进行状态行为对值函数评估时,需要对每次试验中所有的状态行为对进行估计。

(2)第3步完成策略评估,第4步完成策略改进。

我们再讨论一下探索性初始化:

在探索性初始化中,迭代每一幕时,初始状态是随机分配的,这样可以保证迭代过程中每个状态行为对都能被选中。它蕴含着一个假设,即:假设所有的动作都被无限频繁选中。对于这个假设,有时很难成立,或无法完全保证。

我们会问,如何保证初始状态不变的同时,又能保证报个状态行为对可以被访问到?

答案是:精心地设计你的探索策略,以保证每个状态都能被访问到。

可是如何精心地设计探索策略?符合要求的探索策略是什么样的?

答案是:策略必须是温和的,即对所有的状态s 和a 满足:。也就是说,温和的探索策略是指在任意状态下,采用动作集中每个动作的概率都大于零。典型的温和策略是策略,即:
在这里插入图片描述
根据探索策略(行动策略)和评估的策略是否是同一个策略,蒙特卡罗方法又分为on-policy和off-policy.

若行动策略和评估及改善的策略是同一个策略,我们称之为on-policy,可翻译为同策略。

若行动策略和评估及改善的策略是不同的策略,我们称之为off-policy,
可翻译为异策略。

接下来我们重点理解这on-policy方法和off-policy方法。
On-policy: 同策略是指产生数据的策略与评估和要改善的策略是同一个策略。比如,要产生数据的策略和评估及要改进的策略都是soft策略。其伪代码如图所示
在这里插入图片描述
Off-policy:

在这里插入图片描述

利用行为策略产生的数据评估目标策略需要利用重要性采样方法。下面,我们来介绍重要性采样。

Monte-Carlo vs TD

Monte-Carlo是每一时刻的结果都要向实际的结果上更新
TD是一直更新猜想,当最后更新完成时也就达到了最终结果。

Advantages and Disadvantages of MC vs. TD

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值