25、强化学习中的折扣未来奖励与Q学习详解

强化学习中的折扣未来奖励与Q学习详解

1. 折扣未来奖励

在马尔可夫决策过程(MDP)中,为了使决策表现良好,不仅要考虑即时奖励,还需考虑长期奖励。一个回合的总奖励可以表示为:
[R = r_1 + r_2 + r_3 + \cdots + r_n]
从时间点 (t) 开始的未来总奖励可以表示为:
[R_t = r_{t+1} + r_{t+2} + r_{t+3} + \cdots + r_{t+n}]
由于环境是随机的,每次执行相同的动作时,无法确定会获得相同的奖励。而且,考虑的未来奖励越远,其差异可能越大。为了应对这种不确定性,通常使用折扣未来奖励,其表达式为:
[R_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots + \gamma^{n-t} r_{n}]
其中,(\gamma) 是折扣因子,取值范围为 (0) 到 (1.0)。因为折扣因子小于 (1.0) 且被提升到幂次,所有未来奖励都会被大幅减少或折扣。时间步 (t) 的折扣未来奖励可以用时间步 (t+1) 的相同内容表示:
[R_t = r_{t+1} + \gamma (r_{t+2} + \gamma r_{t+3} + \cdots) = r_{t+1} + \gamma R_{t+1}]
如果折扣因子 (\gamma) 设置为 (0),则策略将只关注即时奖励,不考虑长期影响。为了平衡即时奖励和未来奖励,通常将折扣因子设置为 (\gamma = 0.9)。如果环境是确定性的,相同的动作总是产生相同的奖励,那么折扣因子可以设置为 (1.0)。
对于一个智能体来说,一个好的策略是始终选择能最大化(折扣

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值