部分可观察马尔可夫决策过程（Partially Observable Markov Decision Process, POMDP）

最新推荐文章于 2025-07-15 16:42:27 发布

原创

最新推荐文章于 2025-07-15 16:42:27 发布 · 1.2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #POMDP

1. 什么是POMDP？用生活中的例子理解

POMDP（部分可观测马尔可夫决策过程，Partially Observable Markov Decision Process）是一种用来解决决策问题的数学工具，专门处理环境信息不完全的情况。简单来说，它帮助一个“智能体”（可以是人、机器人、程序）在不知道全部信息的情况下，做出最好的决定。

生活中的例子：找钥匙

想象你早上醒来，找不到家里的钥匙。你知道钥匙可能在以下几个地方：

客厅的沙发上
卧室的床头柜
厨房的桌子上

但你没法直接“看到”钥匙在哪里，只能通过一些线索（比如回忆昨晚的活动，或者去检查某个地方）来推测。你可以采取行动，比如：

去客厅翻沙发
去卧室检查床头柜
去厨房看桌子

每次行动后，你会得到一些“观测”（线索），比如：

在沙发上看到一个闪光的东西，但不确定是钥匙还是硬币。
在床头柜上没找到任何东西。
在厨房闻到咖啡味，但没看到钥匙。

这些观测并不能100%告诉你钥匙的准确位置，但可以帮助你更新对钥匙位置的猜测。你需要根据这些不完整的线索，决定下一步去哪里找，目标是尽快找到钥匙。

在这个例子中：

状态（State）：钥匙的真实位置（沙发、床头柜、桌子）。
动作（Action）：你决定去哪个地方找（翻沙发、检查床头柜、看桌子）。
观测（Observation）：你检查后看到的线索（闪光、没东西、咖啡味）。
目标：尽快找到钥匙（最大化奖励，比如节省时间）。

POMDP就是用来解决这类问题的框架：智能体无法直接知道真实状态（钥匙在哪里），只能通过观测（线索）推测，并选择最优动作（去哪里找）。

2. 从基础开始：MDP和POMDP的关系

POMDP是建立在**MDP（马尔可夫决策过程）**基础上的扩展。因为你没有强化学习基础，我们先从MDP讲起，理解了MDP再过渡到POMDP会更容易。

2.1 什么是MDP？（完全可观测的情况）

MDP是用来解决智能体知道所有信息的决策问题。继续用找钥匙的例子，但这次假设你有“超能力”，能直接看到钥匙在哪个位置（完全可观测）。MDP的决策过程就像下面这样：

状态（State）：你清楚地知道钥匙的当前位置，比如“钥匙在沙发上”。
动作（Action）：你可以选择去某个地方找，比如“去沙发”。
奖励（Reward）：如果你去对了地方（比如钥匙在沙发，你去了沙发），你会得到奖励，比如“节省时间”或“+10分”。如果去错了地方，可能得到惩罚，比如“浪费时间”或“-1分”。
状态转移（Transition）：你采取行动后，环境会发生变化。比如，你去沙发找到钥匙后，状态变成“钥匙已被找到”，游戏结束。
目标：通过选择合适的动作，尽可能多地获得奖励（比如尽快找到钥匙）。

在MDP中，智能体总是知道当前状态（钥匙在哪里），所以决策很简单：直接去钥匙所在的地方。

2.2 从MDP到POMDP

现实生活中，我们很少有“超能力”能直接知道所有信息（比如钥匙的准确位置）。POMDP就是在MDP的基础上，增加了信息不完全的设定。回到找钥匙的例子：

你不知道钥匙的准确位置（状态不可观测）。
你只能通过检查某个地方（动作）得到线索（观测），比如“在沙发上看到闪光”。
你需要根据这些线索，猜测钥匙可能在哪里，然后决定下一步去哪里找。

POMDP比MDP更贴近现实，因为它考虑了不确定性。智能体需要：

根据观测（线索）推测可能的真实状态（钥匙的位置）。
在不确定性下选择最优动作（去哪里找）。

3. POMDP的组成：七个核心部分

POMDP用七个部分来描述一个决策问题。我们用找钥匙的例子，详细讲解每个部分。

POMDP的数学定义是一个七元组： $\Omega, O, \gamma)$ 。

别被公式吓到！我们会一个一个解释，带例子，确保你明白。

3.1 状态集合（S）

状态是环境的真实情况。在找钥匙的例子中，可能的状态是：

$s_1$ ：钥匙在沙发上
$s_2$ ：钥匙在床头柜上
$s_3$ ：钥匙在厨房桌子上

状态集合 $S$ 就是所有可能状态的集合： $S = \{ s_1, s_2, s_3 \}$ 。

关键点：在POMDP中，你（智能体）不知道当前状态是什么，只能通过线索推测。

3.2 动作集合（A）

动作是你可以采取的行为。在找钥匙的例子中，你可以：

$a_1$ ：去沙发检查
$a_2$ ：去床头柜检查
$a_3$ ：去厨房桌子检查

动作集合 $A$ 是所有可能动作的集合： $A = \{ a_1, a_2, a_3 \}$ 。

3.3 状态转移概率（T）

状态转移概率描述你采取某个动作后，环境状态如何变化。数学上，它是： $T(s' | s, a) = P(s_{t+1} = s' | s_t = s, a_t = a)$ 。

意思是：在状态 $s$ ，执行动作 $a$ ，环境转移到状态 $s^{'}$ 的概率。

在找钥匙的例子中，假设你找到钥匙后，游戏结束（进入一个特殊状态，比如“已找到”）。我们定义：

如果钥匙在沙发上（ $s_1$ ），你去沙发检查（ $a_1$ ），你会找到钥匙，状态变成“已找到”（记为 $s_4$ ），概率是100%： $T(s_4 | s_1, a_1) = 1.0$ 。
如果你去错了地方（比如钥匙在沙发上，但你去床头柜检查 $a_2$ ），状态不变，仍然是 $s_1$ ： $T(s_1 | s_1, a_2) = 1.0$ 。