强化学习中的折扣未来奖励与Q学习详解
1. 折扣未来奖励
在马尔可夫决策过程(MDP)中,为了使决策表现良好,不仅要考虑即时奖励,还需考虑长期奖励。一个回合的总奖励可以表示为:
[R = r_1 + r_2 + r_3 + \cdots + r_n]
从时间点 (t) 开始的未来总奖励可以表示为:
[R_t = r_{t+1} + r_{t+2} + r_{t+3} + \cdots + r_{t+n}]
由于环境是随机的,每次执行相同的动作时,无法确定会获得相同的奖励。而且,考虑的未来奖励越远,其差异可能越大。为了应对这种不确定性,通常使用折扣未来奖励,其表达式为:
[R_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots + \gamma^{n-t} r_{n}]
其中,(\gamma) 是折扣因子,取值范围为 (0) 到 (1.0)。因为折扣因子小于 (1.0) 且被提升到幂次,所有未来奖励都会被大幅减少或折扣。时间步 (t) 的折扣未来奖励可以用时间步 (t+1) 的相同内容表示:
[R_t = r_{t+1} + \gamma (r_{t+2} + \gamma r_{t+3} + \cdots) = r_{t+1} + \gamma R_{t+1}]
如果折扣因子 (\gamma) 设置为 (0),则策略将只关注即时奖励,不考虑长期影响。为了平衡即时奖励和未来奖励,通常将折扣因子设置为 (\gamma = 0.9)。如果环境是确定性的,相同的动作总是产生相同的奖励,那么折扣因子可以设置为 (1.0)。
对于一个智能体来说,一个好的策略是始终选择能最大化(折扣
超级会员免费看
订阅专栏 解锁全文
2799

被折叠的 条评论
为什么被折叠?



