39、离散部分可观测马尔可夫决策过程的动态且与任务无关的奖励塑造方法

离散部分可观测马尔可夫决策过程的动态且与任务无关的奖励塑造方法

在强化学习中,智能体在部分可观测马尔可夫决策过程(POMDPs)中学习如何按预期行动时,往往需要很长时间来探索状态 - 动作空间。奖励塑造方法可以在可靠性和速度方面指导实时POMDP规划。本文提出了低维策略图(LDPG)这一新型奖励塑造方法,旨在降低价值函数的维度,提取最佳的状态 - 动作对,进而塑造奖励函数。同时,通过分析转移函数图来发现智能体达到目标的重要路径,以加速学习速度。

1. 引言

强化学习中的奖励塑造通过向环境奖励添加补充奖励信号,加速复杂问题最优解的发现,这在POMDPs这类复杂且不确定的环境中尤为有用。然而,在POMDPs中应用奖励塑造具有挑战性,因为需要专家知识且定义合适的奖励函数至关重要,错误的奖励函数可能导致次优行为,特别是在规划时间有限的在线任务中。

本文使用LDPG方法解决现有离散POMDPs奖励塑造方法的局限性。为降低POMDP的复杂性,在迭代过程中对价值函数向量应用等距特征映射(ISOMAP)进行降维。ISOMAP通过考虑点的邻居来保留状态 - 动作值之间的关系,其输出是状态 - 动作的价值函数向量,用于找到最优解。在价值迭代过程的每次迭代中,LDPG方法动态识别子目标,并对位于子目标路径上的状态进行奖励,以诱导智能体遵循该路径,从而加快算法收敛速度,提高最终预期奖励(ER)和平均累积奖励(ACR)。

本文的贡献如下:
- 提出并部署了首个用于离散POMDPs的动态奖励塑造方法。
- 该方法可扩展到能用基于点的价值迭代算法解决的POMDP问题。
- 通过实验证明了该方法在复杂领域(更大状态空间)中的实用性。
- 在五个POMD

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值