平均奖励强化学习与误差反向传播算法解析
平均奖励强化学习
定义与背景
平均奖励强化学习(ARL)旨在通过持续采取行动并观察包括下一状态和即时奖励在内的结果,学习优化每个时间步平均奖励的策略。强化学习(RL)是研究通过从环境中接收奖励和惩罚来提高任务执行性能的程序。在具有自然终止条件的情节性领域,如西洋双陆棋游戏结束时,优化的明显性能指标是每局的预期总奖励。但对于电梯调度等循环领域,总预期奖励可能是无限的,需要不同的优化标准。
在折扣优化框架中,每个时间步的奖励值乘以小于1的折扣因子,使总折扣奖励始终有限。然而,在许多领域中,折扣因子没有自然解释。在这些领域中,优化的自然性能指标是每个时间步收到的平均奖励。直接优化平均奖励的方法避免了额外参数,并且在实践中通常会导致更快的收敛。
马尔可夫决策过程基础
平均奖励优化基于马尔可夫决策过程(MDPs)。一个MDP由四元组⟨S, A, P, r⟩描述,其中S是离散状态集,A是离散动作集,P是给定当前状态和动作时下一状态的条件概率分布,r是给定状态和动作的即时奖励。策略π是从状态到动作的映射,每个策略在一组状态上诱导出一个马尔可夫过程。
在遍历MDP中,每个策略形成一个单一的封闭状态集,并且在无限时间范围内,每个时间步的平均奖励与起始状态无关,称为策略的“增益”,用ρ(π)表示。目标是找到最大化ρ(π)的“增益最优策略”π*。
贝尔曼方程与偏置值
即使策略的增益与起始状态s无关,但时间t内的总预期奖励并非如此,可表示为ρ(π)t + h(s),其中h(s)是状态相关的偏置项。状态的偏置值决定了哪些状态和动作更受青睐,对于最优性能而言
超级会员免费看
订阅专栏 解锁全文
1215

被折叠的 条评论
为什么被折叠?



