模型无关控制方法

最新推荐文章于 2025-12-11 20:59:23 发布

原创最新推荐文章于 2025-12-11 20:59:23 发布 · 136 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法

动手学强化学习专栏收录该内容

9 篇文章

订阅专栏

本文介绍了模型无关控制在强化学习中的应用，包括MDP建模、在线和离线策略学习，以及状态值和状态-动作值函数。重点讲解了ε-greedy策略和蒙特卡洛与时序差分算法的比较，强调了强化学习中的预测与控制问题的关系。

模型无关控制方法

模型无关的控制应用场景

一些能够被建模成马尔可夫决策过程的问题示例
电梯，平行泊车，船舶操纵，生物反应器，直升机，飞机物流，机器人行走，围棋对弈

在这里插入图片描述

对于大部分真实世界中的问题：

MDP模型为未知，但能够从经验中采样
MDP模型为已知，但规模太大难以直接使用，只能通过采样

模型无关的控制能够解决上述问题

在线策略和离线策略学习

两类模型无关的强化学习

在线策略学习（on-policy）
- Learning on the job
- 利用策略 $π\pi$ 的经验采样不断学习改进策略 $π\pi$
离线策略学习（off-policy）
- Look over someone’s shoulder
- 利用另一个策略 $μ\mu$ 的经验采样不断学习改进策略 $π\pi$

状态值和状态-动作值

$Gt=Rt+1+γRt+2+⋯+γT−1RTG_{t}=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-1}R_{T}$

状态值
马尔可夫决策过程的 状态值函数 $Vπ(S)V^{\pi}(S)$ 是指从状态 $s$ 开始，执行策略 $π\pi$ 的期望累计奖励

$Vπ(s)=Eπ[Gt∣St=s]V^{\pi}(s)=\mathbb{E}_{\pi}[G_{t}|S_{t}=s]$

状态-动作值
马尔可夫决策过程的 状态-动作值函数 $Qπ(s,a)Q^{\pi}(s,a)$ 是指从状态 $s$ 开始，执行动作 $a$ 之后，执行策略 $π\pi$ 的期望累计奖励

$Qπ(s,a)=Eπ[Gt∣St=s,At=a]Q^{\pi}(s,a)=\mathbb{E}_{\pi}[G_{t}|S_{t}=s,A_{t}=a]$

贝尔曼期望方程

状态值函数 $Vπ(s)V^{\pi}(s)$ 可被分解为即时奖励加上后续状态的折扣值

$Vπ(s)=Eπ[Rt+1+γVπ(St+1)∣St=s]V^{\pi}(s)=\mathbb{E}_{\pi}[R_{t+1}+\gamma V^{\pi}(S_{t+1})|S_{t}=s]$

状态-动作值函数 $Qπ(s,a)Q^{\pi}(s,a)$ 也能被类似的分解

$Qπ(s,a)=Eπ[Rt+1+γQπ(St+1,At+1)∣St=s,At=a]Q^{\pi}(s,a)=\mathbb{E}_{\pi}[R_{t+1}+\gamma Q^{\pi}(S_{t+1},A_{t+1})|S_{t}=s,A_{t}=a]$

$Vπ(s)=∑a∈Aπ(a∣s)Qπ(s,a)V^{\pi}(s)=\sum_{a \in A}{\pi(a|s)Q^{\pi}(s,a)}$

在这里插入图片描述

$Qπ(s,a)=R(s,a)+γ∑s′∈SPsa(s′)Vπ(s′)Q^{\pi}(s,a)=R(s,a)+\gamma\sum_{s'\in S}{P_{sa}(s')V^{\pi}(s')}$

在这里插入图片描述

模型无关的策略迭代

给定状态值函数 $V (s)$ 和状态-动作值函数 $Q (s, a)$ ，模型无关的策略迭代应使用状态-动作值函数

基于状态值函数 $V (s)$ 的贪心策略改进需要建立马尔可夫决策过程模型

$πnew(s)=arg⁡max⁡a∈A{R(s,a)+γ∑s′∈SPsa(s′)Vπ(s′)}\pi^{new}(s)=\arg\max_{a\in A}\left\{R(s,a)+\gamma\sum_{s'\in S}{P_{sa}(s')V^{\pi}(s')}\right\}$

我们不知道状态转移概率 $P_{sa}(s')$ ，所以无法对其直接求解

基于状态-动作值函数 $Q (s, a)$ 的贪心策略改进是模型无关的

$πnew(s)=arg⁡max⁡a∈AQ(s,a)\pi^{new}(s)=\arg\max_{a \in A}{Q(s,a)}$

使用状态-动作值函数的广义策略迭代

在这里插入图片描述

策略评估： 蒙特卡洛策略评估， $Q=QπQ=Q^{\pi}$
策略改进： 贪心策略改进

贪心动作选择（Greedy Action Selection）示例

基于 $Q (s, a)$ 的贪心策略改进是模型无关的

$πnew(s)=arg⁡max⁡a∈AQ(s,a)\pi^{new}(s)=\arg\max_{a \in A}{Q(s,a)}$

在这里插入图片描述

如上图的例子
假如第一次选择左边的门且获得的观测奖励 = 0，那么很可能就会陷入局部最优

如果没有探索，策略将是次优的

$ε−greedy\varepsilon-greedy$ 策略探索

确保持续探索最简单的想法
所有m个动作都以非零概率进行尝试

以 $1−ϵ1-\epsilon$ 的概率，选择贪心动作
以 $ϵ\epsilon$ 的概率，随机选择一个动作

$\pi(a|s)= \begin{cases} \frac{\epsilon}{m}+1-\epsilon & if\quad a^{*}=\arg\max\limits_{a\in A}{Q(s,a)} \\ \frac{\epsilon}{m} & otherwise \end{cases}$

$ε−greedy\varepsilon-greedy$ 策略改进

定理：
对于任意 $ϵ−greedy\epsilon-greedy$ 策略 $π\pi$ ，关于 $QπQ^{\pi}$ 的 $ϵ−greedy\epsilon-greedy$ 策略 $π′\pi'$ 是 $π\pi$ 的一个改进，即 $Vπ′(s)≥Vπ(s)V^{\pi'}(s)\geq V^{\pi}(s)$