13、改进的避罚理性决策算法的提出与评估

最新推荐文章于 2025-10-29 14:14:35 发布

饼干CSS

最新推荐文章于 2025-10-29 14:14:35 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习前沿探秘文章标签：强化学习避罚理性决策算法 PARP

本文链接：https://blog.youkuaiyun.com/j2k3l4/article/details/154561997

机器学习前沿探秘专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

改进的避罚理性决策算法的提出与评估

1. 引言

强化学习（RL）是一种机器学习方法，旨在通过奖励和惩罚使智能体适应给定环境。传统的RL系统主要基于动态规划（DP），能在马尔可夫决策过程（MDPs）中找到使期望折扣奖励最大化的最优策略，如时间差分学习（TD）和Q学习。然而，部分可观测马尔可夫决策过程（POMDPs）的类别比MDPs更广泛，将基于DP的RL系统应用于POMDPs会面临一些限制，因此常使用启发式资格迹来处理POMDPs。

基于DP的RL系统旨在在给定的奖励和惩罚值下优化行为，但为了实现特定目的，很难恰当地设计这些值。如果设置不当，智能体可能会学习到意外的行为。逆强化学习（IRL）是一种与奖励和惩罚值设计问题相关的方法，若将期望策略输入IRL系统，它能输出一个能实现相同策略的奖励函数。

另一方面，有一类方法将奖励和惩罚独立处理，如基于利润分享（PS）的合理性定理、理性决策算法（RPM）和PS - r*，但它们仅限于奖励类型为一种的环境。还有能处理惩罚的避罚理性决策算法（PARP）和避罚利润分享（PAPS），这类系统被称为面向开发的学习（XoL）。

XoL具有以下特点：
1. 传统RL系统需要合适的奖励和惩罚值，而XoL只需要它们之间的重要性顺序，通常更容易设计。
2. 能更快地学习，因为它们会强烈追踪成功经验。
3. 不太适合追求最优策略，虽然可以通过多起点方法获得最优策略，但需要重置所有记忆。
4. 由于不依赖DP，是无贝尔曼方法，因此在MDPs之外的类别中有效。

我们对XoL感兴趣，特别是PARP和PAPS，因为它们能同时处理奖励和惩罚。但PARP应用于现实世界较为困难，因为它需要O(MN