通用折扣与平均奖励的比较
在强化学习领域,智能体与环境的交互循环中会获得相应的奖励。本文将深入探讨从第 1 个循环到第 m 个循环的平均奖励(平均价值 U)与从第 k 个循环到无穷的未来折扣奖励(折扣价值 V)之间的关系。我们会考虑任意(非几何)折扣序列和任意奖励序列(非马尔可夫决策过程环境)。
1. 引言
在强化学习的设定中,智能体与环境按循环进行交互。在第 k 个循环中,智能体执行动作 $a_k$,然后进行观察 $o_k$ 并获得奖励 $r_k$,之后进入下一个循环 $k + 1$。为简化问题,我们假设智能体和环境都是确定性的。
通常,我们关注能让智能体获得高奖励的动作序列,也就是计划或策略。衡量性能最简单合理的方法是总奖励之和,等价于平均奖励,即平均价值 $U_{1m} := \frac{1}{m} \sum_{i = 1}^{m} r_i$,这里的 m 通常被认为是智能体的寿命。然而,这个方法存在一些问题:
- 寿命 m 往往事先未知,例如系统的运行时间常取决于其表现。
- 该方法对奖励获得的时间不敏感,无论奖励是早期还是晚期获得,只要值相同就无差异。当考虑 $m \to \infty$ 时,这种不敏感性可能会导致严重问题。例如,一个智能体在首次执行动作 $a_k = b$ 之前没有奖励,之后获得奖励 $\frac{k - 1}{k}$。对于有限的 m,从动作 a 切换到 b 的最优 k 值为 $k_{opt} = m$。当 $m \to \infty$ 时,$k_{opt} \to \infty$,这意味着追求奖励最大化的智能体实际上总是执行动作 a,最终奖励为零,尽管本可以获得接近 1 的奖励。
另一种方法是采用移动视野。在第
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



