基于模型与无模型强化学习:原理、方法与应用
基于模型的强化学习
在某些应用场景中,当环境的底层动态可以被完美总结时,基于模型的强化学习就派上了用场。因为已知动态模型,与无模型方法相比,它所需的训练样本要少得多。在训练样本稀疏的特定应用中,基于模型的方法可能比无模型方法更实用。例如,在临床决策支持中,智能体需要从患者的电子健康记录(EHR)中学习,并在患者准备好接受如通气等医疗治疗时提醒护理人员。在这类医疗应用中,数据稀疏且不规则,因此有必要建立一个良好的模型以实现更高效的学习。
马尔可夫决策过程(MDP)的动态规划解决方案
为解决马尔可夫决策过程(MDP)问题,有两种基于动态规划的解决方案:策略迭代和值迭代。
- 策略迭代 :这是一种分两步走的方法。首先评估价值函数,然后通过贪心策略更新当前策略。
- 值迭代 :将上述两个步骤整合在一起,在价值函数更新后立即更新策略。
考虑到状态空间可能非常大的情况,为节省内存并加快更新速度,引入了异步值迭代。但从根本上说,所有基于动态规划的方法都受维度诅咒的影响,这意味着当状态空间超大或连续时,这类方法将变得难以处理或非常耗时。
函数逼近
函数逼近(FA)是处理上述问题的常用技术。懒惰逼近是FA的一个特例,它将连续值函数近似为分段常数函数。过去几十年里,许多其他函数逼近方法也得到了研究,包括基本的线性逼近或深度神经网络。具体来说,假设FA表示为 $v(s) = f(s; w)$,其中 $w$ 是FA的参数,那么可以通过最小化贝尔曼残差 $L$ 来获得最优值函数(或参数 $w$),即当前状态值与根据贝
超级会员免费看
订阅专栏 解锁全文

1711

被折叠的 条评论
为什么被折叠?



