16、平均奖励强化学习与误差反向传播算法解析

平均奖励强化学习与误差反向传播算法解析

平均奖励强化学习

定义与背景

平均奖励强化学习(ARL)旨在通过持续采取行动并观察包括下一状态和即时奖励在内的结果,学习优化每个时间步平均奖励的策略。强化学习(RL)是研究通过从环境中接收奖励和惩罚来提高任务执行性能的程序。在具有自然终止条件的情节性领域,如西洋双陆棋游戏结束时,优化的明显性能指标是每局的预期总奖励。但对于电梯调度等循环领域,总预期奖励可能是无限的,需要不同的优化标准。

在折扣优化框架中,每个时间步的奖励值乘以小于1的折扣因子,使总折扣奖励始终有限。然而,在许多领域中,折扣因子没有自然解释。在这些领域中,优化的自然性能指标是每个时间步收到的平均奖励。直接优化平均奖励的方法避免了额外参数,并且在实践中通常会导致更快的收敛。

马尔可夫决策过程基础

平均奖励优化基于马尔可夫决策过程(MDPs)。一个MDP由四元组⟨S, A, P, r⟩描述,其中S是离散状态集,A是离散动作集,P是给定当前状态和动作时下一状态的条件概率分布,r是给定状态和动作的即时奖励。策略π是从状态到动作的映射,每个策略在一组状态上诱导出一个马尔可夫过程。

在遍历MDP中,每个策略形成一个单一的封闭状态集,并且在无限时间范围内,每个时间步的平均奖励与起始状态无关,称为策略的“增益”,用ρ(π)表示。目标是找到最大化ρ(π)的“增益最优策略”π*。

贝尔曼方程与偏置值

即使策略的增益与起始状态s无关,但时间t内的总预期奖励并非如此,可表示为ρ(π)t + h(s),其中h(s)是状态相关的偏置项。状态的偏置值决定了哪些状态和动作更受青睐,对于最优性能而言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值