改进的避罚理性决策算法的提出与评估
1. 引言
强化学习(RL)是机器学习的一种,旨在通过奖励和惩罚使智能体适应给定环境。传统的 RL 系统主要基于动态规划(DP),能在马尔可夫决策过程(MDPs)中找到使预期折扣奖励最大化的最优策略,如时间差分学习(TD)和 Q 学习。然而,部分可观测马尔可夫决策过程(POMDPs)类别比 MDPs 更广泛,将基于 DP 的 RL 系统应用于 POMDPs 会有局限性,因此常使用启发式资格迹来处理 POMDPs。
基于 DP 的 RL 系统虽旨在优化行为,但难以设计合适的奖励和惩罚值,不合适的值可能导致智能体学习到意外行为。逆强化学习(IRL)可根据预期策略输出能实现该策略的奖励函数。
另一方面,有一种将奖励和惩罚独立处理的方法,基于此观点提出的 RL 系统包括利润分享(PS)的合理性定理、理性决策算法(RPM)和 PS - r*等,它们适用于奖励类型为一种的环境。还有能处理惩罚的避罚理性决策算法(PARP)和避罚利润分享(PAPS),这类系统被称为面向开发的学习(XoL)。
XoL 具有以下特点:
1. 传统 RL 系统需要合适的奖励和惩罚值,而 XoL 只需要它们之间的重要性顺序,通常更容易设计。
2. 能更快学习,因为能强烈追踪成功经验。
3. 不太适合追求最优策略,虽可通过多起点方法获取最优策略,但需重置所有记忆。
4. 是不依赖 DP 的无贝尔曼方法,在 MDPs 之外的类别中有效。
由于需要快速学习和/或在比 MDPs 更广泛的类别中学习,我们对 XoL 感兴趣,尤其关注 PARP 和 PAPS,因为它们能同时处理奖励和惩罚。但 PARP 应用于现实世界
改进的避罚决策算法研究
超级会员免费看
订阅专栏 解锁全文
1045

被折叠的 条评论
为什么被折叠?



