1. 强化学习的基本框架
为了理解累计奖励,我们首先来看强化学习的核心框架。强化学习的核心思想是通过试错(Trial and Error)学习找到最优策略。以下是强化学习的基本组成部分:
- 智能体(Agent):决策者,负责在环境中采取行动。例如,自动驾驶汽车、玩游戏的AI。
- 环境(Environment):智能体与之交互的外部世界。环境会根据智能体的行动提供反馈。
- 状态(State, sss):描述环境在某一时刻的状况。例如,游戏中角色的位置、速度等。
- 行动(Action, aaa):智能体在某个状态下可以采取的行为。例如,左转、加速、跳跃等。
- 奖励(Reward, rrr):环境对智能体行动的即时反馈,通常是一个标量值。例如,赢一局游戏得+1分,撞墙得-1分。
- 策略(Policy, π\piπ):智能体的决策规则,定义了在给定状态下选择某个行动的概率。形式上,π(a∣s)\pi(a|s)π(a∣s)表示在状态sss下选择行动aaa的概率。
- 累计奖励(Cumulative Reward):智能体在一段时间内获得的奖励总和,通常是强化学习优化的目标。
强化学习的流程可以概括为:
- 智能体观察当前状态sts_tst。
- 根据策略π\piπ选择一个行动ata_tat。
- 环境接收行动ata_tat,返回一个奖励rtr_trt和下一个状态st+1s_{t+1}st+1。
- 智能体更新策略,重复上述过程。
累计奖励是强化学习的核心目标,智能体的任务是通过调整策略来最大化这个值。
2. 累计奖励的定义
累计奖励是智能体在与环境交互的过程中,从某一时刻开始到未来某个时间点或整个交互过程结束所获得的奖励总和。它衡量了智能体行为的长期效果,而非仅关注某一步的即时奖励。
2.1 数学定义
假设智能体在时间步t=0,1,2,…t = 0, 1, 2, \dotst=0,1,2,…与环境交互,环境在每个时间步ttt返回一个奖励rtr_trt。累计奖励(通常记为GtG_tGt)是从时间步ttt开始到未来某个时间点(可能是无限远)的奖励之和。
在 有限时间步(Finite Horizon) 的情况下,累计奖励定义为:
Gt=rt+rt+1+rt+2+⋯+rTG_t = r_t + r_{t+1} + r_{t+2} + \dots + r_{T}Gt=rt+rt+1+rt+2+⋯+rT
其中TTT是交互的终止时间步(例如,游戏结束)。
在无限时间步(Infinite Horizon)的情况下,直接求和可能导致数值发散,因此通常引入折扣因子(Discount Factor)γ∈[0,1)\gamma \in [0, 1)γ∈[0,1),来对未来的奖励进行折扣。累计奖励定义为:
Gt=rt+γrt+1+γ2rt+2+γ3rt+3+⋯=∑k=0∞γkrt+kG_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \gamma^3 r_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k r_{t+k}Gt=rt+γrt+1+γ2rt+2+γ3rt+3+⋯=∑k=0∞γkrt+k

最低0.47元/天 解锁文章
1871

被折叠的 条评论
为什么被折叠?



