13、改进的避罚理性决策算法的提出与评估

改进的避罚理性决策算法的提出与评估

1. 引言

强化学习(RL)是一种机器学习方法,旨在通过奖励和惩罚使智能体适应给定环境。传统的RL系统主要基于动态规划(DP),能在马尔可夫决策过程(MDPs)中找到使期望折扣奖励最大化的最优策略,如时间差分学习(TD)和Q学习。然而,部分可观测马尔可夫决策过程(POMDPs)的类别比MDPs更广泛,将基于DP的RL系统应用于POMDPs会面临一些限制,因此常使用启发式资格迹来处理POMDPs。

基于DP的RL系统旨在在给定的奖励和惩罚值下优化行为,但为了实现特定目的,很难恰当地设计这些值。如果设置不当,智能体可能会学习到意外的行为。逆强化学习(IRL)是一种与奖励和惩罚值设计问题相关的方法,若将期望策略输入IRL系统,它能输出一个能实现相同策略的奖励函数。

另一方面,有一类方法将奖励和惩罚独立处理,如基于利润分享(PS)的合理性定理、理性决策算法(RPM)和PS - r*,但它们仅限于奖励类型为一种的环境。还有能处理惩罚的避罚理性决策算法(PARP)和避罚利润分享(PAPS),这类系统被称为面向开发的学习(XoL)。

XoL具有以下特点:
1. 传统RL系统需要合适的奖励和惩罚值,而XoL只需要它们之间的重要性顺序,通常更容易设计。
2. 能更快地学习,因为它们会强烈追踪成功经验。
3. 不太适合追求最优策略,虽然可以通过多起点方法获得最优策略,但需要重置所有记忆。
4. 由于不依赖DP,是无贝尔曼方法,因此在MDPs之外的类别中有效。

我们对XoL感兴趣,特别是PARP和PAPS,因为它们能同时处理奖励和惩罚。但PARP应用于现实世界较为困难,因为它需要O(MN

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值