强化学习相关元素解析
1. 折扣因子与回报
折扣因子 $\gamma$ 用于对预期奖励进行折扣。理论上,折扣率 $0 \leq \gamma \leq 1$ 代表了即时奖励和回报 $G_t$ 中预期奖励之间的关联程度,可分为以下三种情况:
- 当 $\gamma = 0$ 时,$G_t = r_{t + 1}$,即回报仅关注即时奖励 $r_{t + 1}$。
- 当 $0 < \gamma < 1$ 时,$G_t$ 的值是收敛的,相当于预期奖励 $r_{t + 2}, r_{t + 3}, \cdots$ 有边界,将无限期问题转化为有限期问题,其回报等于即时奖励加上部分未来折扣奖励。
- 当 $\gamma = 1$ 时,$G_t = r_{t + 1} + r_{t + 2} + r_{t + 3} + \cdots = \sum_{k = 0}^{\infty} r_{t + k + 1}$,此时 $G_t$ 不收敛。
为确保收敛,通常选择的折扣率为 $0 \leq \gamma < 1$。方程 10.2 被称为有限期模型,而方程 10.3 被称为无限期折扣模型,目前大多数强化学习算法采用后者。智能体的目标是最大化回报,即最大化预期回报。
2. 价值函数
价值函数是将回报与策略联系起来的方式。马尔可夫决策过程的最优控制算法主要通过价值函数计算最优策略。价值函数代表一种评估,通过预期回报衡量智能体所处特定状态或在该状态下执行特定动作的质量,且是针对特定策略定义的。强化学习中有以下两种类型的价值函数:
- 状态价值函数 :策略 $\pi$ 下状态 $s$ 的价值,记为 $V
超级会员免费看
订阅专栏 解锁全文
2799

被折叠的 条评论
为什么被折叠?



