基于模型的强化学习

最新推荐文章于 2025-07-14 21:36:48 发布

原创最新推荐文章于 2025-07-14 21:36:48 发布 · 201 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

动手学强化学习专栏收录该内容

9 篇文章

订阅专栏

本文介绍了基于模型的强化学习，包括在已知MDP模型下的价值函数学习和策略计算，以及在实际问题中通过观察片段episode来推断模型参数。重点讲述了如何从经验中学习状态转移概率和奖励函数，以及如何通过算法实现模型学习和策略优化的过程。

基于模型的强化学习

学习一个MDP模型

目前我们关注在给出一个已知MDP模型后，即状态转移 $P_{sa}{(s')}$ 和奖励函数 $R (s)$ 明确给定后

计算最优价值函数
学习最优策略

在实际问题中，状态转移和奖励函数一般不是明确给出的

往往只能够看到一些片段episodes

Episode1: $s0(1)→a0(1),R(s0)(1)s1(1)→a1(1),R(s1)(1)s2(1)→a2(1),R(s2)(1)s3(1)⋯sT(1)s^{(1)}_{0}\xrightarrow{a^{(1)}_{0},R(s_{0})^{(1)}}s^{(1)}_{1}\xrightarrow{a^{(1)}_{1},R(s_{1})^{(1)}}s^{(1)}_{2}\xrightarrow{a^{(1)}_{2},R(s_{2})^{(1)}}s^{(1)}_{3}\cdots s^{(1)}_{T}$

Episode2: $s0(2)→a0(2),R(s0)(2)s1(2)→a1(2),R(s1)(2)s2(2)→a2(2),R(s2)(2)s3(2)⋯sT(2)s^{(2)}_{0}\xrightarrow{a^{(2)}_{0},R(s_{0})^{(2)}}s^{(2)}_{1}\xrightarrow{a^{(2)}_{1},R(s_{1})^{(2)}}s^{(2)}_{2}\xrightarrow{a^{(2)}_{2},R(s_{2})^{(2)}}s^{(2)}_{3}\cdots s^{(2)}_{T}$

从经验中学习一个MDP模型

学习状态转移概率 $P_{sa}{(s')}$

$Psa(s′)=在s下采取动作a并转移到s′的次数在s下采取动作a的次数{P_{sa}{(s')}}=\frac{在s下采取动作a并转移到s'的次数}{在s下采取动作a的次数}$

学习奖励函数 $R (s)$ ，也就是立即奖赏期望

$R(s)=average\{R(s)^{(i)}\}$

学习模型&优化策略

算法实现

随机初始化策略 $π\pi$
重复以下过程直到收敛
1. 在MDP中执行 $π\pi$ ，收集经验数据
2. 使用MDP中的累积经验更新对 $P_{sa}$ 和 $R$ 的估计
3. 利用对 $P_{sa}$ 和 $R$ 的估计执行价值迭代，得到新的估计价值函数 $V$
4. 根据 $V$ 更新策略 $π\pi$ 为贪心策略

基于模型的强化学习：
假设真实的环境是一个黑盒，这种学习的方式就是首先从真实环境中学习一个MDP模型，再进行价值迭代或者策略迭代学习最优策略，以此来解决没有MDP模型的问题。

模型无关的强化学习：
另一种解决方法是不学习MDP，从经验中直接学习价值函数和策略
即模型无关的强化学习(Model-free Reinforcement Learning)
直接从经验中去学习 $V (s)$ 和 $π\pi$ ，而不是学习 $P_{sa}$ 和 $R$

一般RL(Reinforcement Learning)特指模型无关的强化学习，即直接从经验中学价值函数和策略

基于模型的强化学习业界一般叫做Planning或者Dynamic Programming

马尔可夫决策过程总结

MDP由一个五元组构成 $(S,A,{Psa},γ,R)(S,A,\{P_{sa}\},\gamma,R)$ ，其中状态转移 $P$ 和奖励函数 $R$ 构成了动态系统
动态系统和策略交互的占用度量

$ρπ(s,a)=Ea∼π(s),s′∼p(s,a)[∑t=0Tγtp(st=s,at=a)]\rho^{\pi}(s,a)=\mathbb{E}_{a\sim\pi(s),s'\sim p(s,a)}{\left[\sum^{T}_{t=0}{\gamma^{t}p(s_{t}=s,a_{t}=a)}\right]}$