关系域中的强化学习:策略语言方法
在复杂的规划领域中,智能体需要同时应对关系结构和不确定性带来的挑战。传统的动态规划方法在处理大规模状态空间的马尔可夫决策过程(MDPs)时往往会遇到困难,而现有的近似策略迭代(API)方法在应用于经典规划基准问题及其随机变体时也存在局限性。本文将介绍一种新的API变体,它能够直接学习策略,而无需表示近似值函数,同时还引入了一种基于随机游走的引导技术,用于目标导向的规划领域。
1. 问题背景
许多规划领域自然地可以用对象及其关系来表示,如经典的STRIPS领域(如积木世界和物流领域)。然而,传统的规划算法通常假设一个理想化的确定性世界模型,这在处理随机环境时存在局限性。因此,研究人员开始在决策理论框架下研究规划和学习,以处理随机环境和基于奖励的目标。
动态规划方法在处理大规模状态空间的MDPs时会遇到瓶颈,因为状态空间变得极其庞大时,精确的解决方案技术往往变得难以处理。现有的API方法通过机器学习来选择近似值函数,但在处理大型关系域时,值函数的复杂性使得难以指定良好的值函数空间,从而影响学习效果。相比之下,在许多情况下,紧凑地指定良好的策略和策略空间进行学习要容易得多。
2. 问题设定
将工作置于MDPs的框架下,用生成模型⟨S, A, T, R, I⟩表示MDP,其中S是有限状态集,A是有限有序动作集,T是随机“动作模拟”算法,R是奖励函数,I是随机“初始状态算法”。策略π是从S到A的映射,值函数V π(s)表示从状态s开始遵循策略π的预期累积折扣奖励,Q值函数Qπ(s, a)表示在状态s采取动作a并随后遵循π的预期累积折扣奖励。
超级会员免费看
订阅专栏 解锁全文
1024

被折叠的 条评论
为什么被折叠?



