改进的避罚理性决策算法的提出与评估
1. 引言
强化学习(RL)是一种机器学习方法,旨在通过奖励和惩罚使智能体适应给定环境。传统的RL系统主要基于动态规划(DP),能在马尔可夫决策过程(MDPs)中找到使期望折扣奖励最大化的最优策略,如时间差分学习(TD)和Q学习。然而,部分可观测马尔可夫决策过程(POMDPs)的类别比MDPs更广泛,将基于DP的RL系统应用于POMDPs会面临一些限制,因此常使用启发式资格迹来处理POMDPs。
基于DP的RL系统旨在在给定的奖励和惩罚值下优化行为,但为了实现特定目的,很难恰当地设计这些值。如果设置不当,智能体可能会学习到意外的行为。逆强化学习(IRL)是一种与奖励和惩罚值设计问题相关的方法,若将期望策略输入IRL系统,它能输出一个能实现相同策略的奖励函数。
另一方面,有一类方法将奖励和惩罚独立处理,如基于利润分享(PS)的合理性定理、理性决策算法(RPM)和PS - r*,但它们仅限于奖励类型为一种的环境。还有能处理惩罚的避罚理性决策算法(PARP)和避罚利润分享(PAPS),这类系统被称为面向开发的学习(XoL)。
XoL具有以下特点:
1. 传统RL系统需要合适的奖励和惩罚值,而XoL只需要它们之间的重要性顺序,通常更容易设计。
2. 能更快地学习,因为它们会强烈追踪成功经验。
3. 不太适合追求最优策略,虽然可以通过多起点方法获得最优策略,但需要重置所有记忆。
4. 由于不依赖DP,是无贝尔曼方法,因此在MDPs之外的类别中有效。
我们对XoL感兴趣,特别是PARP和PAPS,因为它们能同时处理奖励和惩罚。但PARP应用于现实世界较为困难,因为它需要O(MN
超级会员免费看
订阅专栏 解锁全文
1045

被折叠的 条评论
为什么被折叠?



