18、关系域中的强化学习：策略语言方法

tech5

于 2025-09-27 13:31:28 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：统计关系学习入门文章标签：强化学习关系域策略语言

本文链接：https://blog.youkuaiyun.com/tech5/article/details/152261050

统计关系学习入门专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

关系域中的强化学习：策略语言方法

在复杂的规划领域中，智能体需要同时应对关系结构和不确定性带来的挑战。传统的动态规划方法在处理大规模状态空间的马尔可夫决策过程（MDPs）时往往会遇到困难，而现有的近似策略迭代（API）方法在应用于经典规划基准问题及其随机变体时也存在局限性。本文将介绍一种新的API变体，它能够直接学习策略，而无需表示近似值函数，同时还引入了一种基于随机游走的引导技术，用于目标导向的规划领域。

1. 问题背景

许多规划领域自然地可以用对象及其关系来表示，如经典的STRIPS领域（如积木世界和物流领域）。然而，传统的规划算法通常假设一个理想化的确定性世界模型，这在处理随机环境时存在局限性。因此，研究人员开始在决策理论框架下研究规划和学习，以处理随机环境和基于奖励的目标。

动态规划方法在处理大规模状态空间的MDPs时会遇到瓶颈，因为状态空间变得极其庞大时，精确的解决方案技术往往变得难以处理。现有的API方法通过机器学习来选择近似值函数，但在处理大型关系域时，值函数的复杂性使得难以指定良好的值函数空间，从而影响学习效果。相比之下，在许多情况下，紧凑地指定良好的策略和策略空间进行学习要容易得多。

2. 问题设定

将工作置于MDPs的框架下，用生成模型⟨S, A, T, R, I⟩表示MDP，其中S是有限状态集，A是有限有序动作集，T是随机“动作模拟”算法，R是奖励函数，I是随机“初始状态算法”。策略π是从S到A的映射，值函数V π(s)表示从状态s开始遵循策略π的预期累积折扣奖励，Q值函数Qπ(s, a)表示在状态s采取动作a并随后遵循π的预期累积折扣奖励。