20、基于强化学习的U树：解决部分可观测马尔可夫决策过程的新方法

aa123

于 2025-10-11 09:31:42 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：智能决策：技术与应用文章标签：强化学习 U树 POMDP

本文链接：https://blog.youkuaiyun.com/aa123/article/details/154590139

智能决策：技术与应用专栏收录该内容

49 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于强化学习的U树：解决部分可观测马尔可夫决策过程的新方法

1. 引言

智能的一个重要特征是在各种情况下做出正确决策的能力。因此，人工智能（AI）的很大一部分研究致力于解决决策问题。早期的AI研究将其称为规划，基本方法是将环境的先验知识表示为逻辑命题，然后依靠逻辑推理来做决策。另一种方法源自系统控制领域，Richard Bellman将其命名为动态规划（DP），决策问题的基本形式在DP中被形式化为马尔可夫决策过程（MDP）。

MDP使用状态和状态转移来建模环境及其动态。在每个状态下，智能体有一系列动作可供选择，执行动作后会获得一个标量奖励（或成本）并转移到下一个状态，目标是最大化累积奖励（或最小化总成本）。与传统的AI规划不同，MDP中的环境可以是随机的，状态转移通常用概率矩阵描述。经典的DP使用值迭代来递归地解决MDP，而强化学习（RL）是DP的基于模拟的扩展，它从模拟经验中学习状态转移概率。

然而，MDP假设智能体在每个时间步都确切知道自己所处的状态，这在实际中并不总是可行的。部分可观测马尔可夫决策过程（POMDP）提供了一个更现实的数学框架，在POMDP中，智能体在每个时间步接收一个观测值，但不能仅根据观测值完全确定自己所处的状态。经典的POMDP解决方案是将其转换为连续信念状态的MDP，但由于信念状态空间可能是无限的，获得POMDP的精确解仍然很困难。

许多启发式解决方案被提出，但大多数算法需要环境的完整先验知识。本文介绍了一种基于记忆的强化学习算法——基于强化学习的U树，它不仅能从经验中学习状态转移，还能根据原始传感器输入自行构建状态模型。该算法对原始U树的状态生成过程进行了改进，使其生成的模型更紧凑，并通过一个具有31,224个世界状态的驾驶任务验

会员秒杀 ¥9.9 重磅福利

超级会员免费看