基于强化学习的U树:解决部分可观测马尔可夫决策过程的新方法
1. 引言
智能的一个重要特征是在各种情况下做出正确决策的能力。因此,人工智能(AI)的很大一部分研究致力于解决决策问题。早期的AI研究将其称为规划,基本方法是将环境的先验知识表示为逻辑命题,然后依靠逻辑推理来做决策。另一种方法源自系统控制领域,Richard Bellman将其命名为动态规划(DP),决策问题的基本形式在DP中被形式化为马尔可夫决策过程(MDP)。
MDP使用状态和状态转移来建模环境及其动态。在每个状态下,智能体有一系列动作可供选择,执行动作后会获得一个标量奖励(或成本)并转移到下一个状态,目标是最大化累积奖励(或最小化总成本)。与传统的AI规划不同,MDP中的环境可以是随机的,状态转移通常用概率矩阵描述。经典的DP使用值迭代来递归地解决MDP,而强化学习(RL)是DP的基于模拟的扩展,它从模拟经验中学习状态转移概率。
然而,MDP假设智能体在每个时间步都确切知道自己所处的状态,这在实际中并不总是可行的。部分可观测马尔可夫决策过程(POMDP)提供了一个更现实的数学框架,在POMDP中,智能体在每个时间步接收一个观测值,但不能仅根据观测值完全确定自己所处的状态。经典的POMDP解决方案是将其转换为连续信念状态的MDP,但由于信念状态空间可能是无限的,获得POMDP的精确解仍然很困难。
许多启发式解决方案被提出,但大多数算法需要环境的完整先验知识。本文介绍了一种基于记忆的强化学习算法——基于强化学习的U树,它不仅能从经验中学习状态转移,还能根据原始传感器输入自行构建状态模型。该算法对原始U树的状态生成过程进行了改进,使其生成的模型更紧凑,并通过一个具有31,224个世界状态的驾驶任务验
超级会员免费看
订阅专栏 解锁全文
2505

被折叠的 条评论
为什么被折叠?



