揭秘深度强化学习-4长期策略之衰减因子

本文介绍了深度强化学习中如何处理长期策略,特别是衰减未来奖励的概念。通过马尔科夫决策过程,文章解释了如何计算带有衰减因子γ的总奖励,该因子用于平衡当前奖励与未来奖励的权重。γ的值影响策略的远见,较高的γ表示更重视未来奖励。一个理想的策略是无论环境如何,都能选择最大化累积奖励的行动。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

衰减未来奖励(Discounted Future Reward)

为了在周期很长的游戏中同样表现出色,我们需要考虑的不仅仅是当下即时奖励,同样还有未来我们能够得到的。那么我们该如何做呢?

假设应用马尔科夫决策过程,我们可以简单计算出一个周期的总奖励:

R=r_{1}+r_{2}+...+r_{n}

但是,因为我们的环境的随机性,我们不能确定下次用同样的行动是否能拿到相同的奖励。越遥远的将来,不确定性越大。因此,通常做法是使用衰减未来奖励代替确定的未来奖励:

R_{t}= r_{t}+\gamma r_{t+1}+\gamma^{2} r_{t+1}+\gamma^{3} r_{t+2}+...++\gamma^{n-t} r_{n}

γ 是一个介于0到1间的值,表示未来衰减因子——距离当下越远,我们对它的考虑越少。由上述公式很容易推导出以下公式:

R_{t}= r_{t}+\gamma( r_{t+1}+\gamma r_{t+1}+\gamma^{2} r_{t+2}+...++\gamma^{n-t-1} r_{n})=r_{t}+\gamma R_{t+1}

如果我们将衰减因子设置为γ=0,表示我们的策略将使短视的即不考虑未来获得奖励仅依赖当下奖励。如果我们想要在当下奖励和未来奖励之间取得平衡,我们可以将γ设置为0.9之类的数。总而言之,γ的值越高,我们对未来奖励越看重。如果我们的环境是确定无随机变化的,并且相同的行动总会获得相同的奖励,我们可以将γ设置为1.

一个好的策略是不论什么环境,总能选到一个行动,来最大化我们获得的奖励。(无论多烂的牌,都要出的精彩)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值