59、复杂决策的制定

rust6ferris

于 2025-08-11 09:20:34 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能：现代方法精解文章标签：马尔可夫决策过程 MDP POMDP

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/151887353

人工智能：现代方法精解专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

复杂决策的制定

在现实生活中，我们常常需要在充满不确定性的环境中做出决策，而且今天的决策可能会影响到未来面临的选择。这就涉及到了顺序决策问题，它与一次性或阶段性决策问题不同，其决策的效用取决于一系列的决策过程。下面我们将深入探讨顺序决策问题的定义、解决方法以及相关的重要概念。

1. 顺序决策问题概述

假设一个智能体处于一个 4×3 的环境中，从起始状态开始，它在每个时间步都需要选择一个动作。当智能体到达标记为 +1 或 -1 的目标状态时，与环境的交互就会终止。在这个环境中，智能体在每个状态下可采取的动作有向上（Up）、向下（Down）、向左（Left）和向右（Right）。

然而，这个环境是随机的，每个动作并不总是能达到预期的效果。具体来说，每个动作有 0.8 的概率实现预期效果，而有 0.2 的概率会使智能体朝着与预期方向垂直的方向移动。如果智能体撞到墙壁，它将停留在原地。例如，从起始方格 (1,1) 执行向上的动作，有 0.8 的概率移动到 (1,2)，有 0.1 的概率向右移动到 (2,1)，还有 0.1 的概率向左撞到墙壁并停留在 (1,1)。

为了完整定义这个任务环境，我们需要指定智能体的效用函数。由于这是一个顺序决策问题，效用函数将取决于一系列的状态和动作，即环境历史，而不是单个状态。对于每一次从状态 s 通过动作 a 转移到状态 s′，智能体都会获得一个奖励 R(s,a,s′)。在这个例子中，除了进入终端状态（奖励为 +1 和 -1），其他所有转移的奖励都是 -0.04。环境历史的效用就是所获得奖励的总和。

这种具有马尔可夫转移模型和累加奖励的完全可观察随机环境中的顺序决策问题被称为马尔可夫决策过程（Markov Decis