累计奖励（Cumulative Reward）

原创

已于 2025-05-03 15:03:07 修改 · 913 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-05-01 23:29:35 首次发布

1. 强化学习的基本框架

为了理解累计奖励，我们首先来看强化学习的核心框架。强化学习的核心思想是通过试错（Trial and Error）学习找到最优策略。以下是强化学习的基本组成部分：

智能体（Agent）：决策者，负责在环境中采取行动。例如，自动驾驶汽车、玩游戏的AI。
环境（Environment）：智能体与之交互的外部世界。环境会根据智能体的行动提供反馈。
状态（State, $s$ ）：描述环境在某一时刻的状况。例如，游戏中角色的位置、速度等。
行动（Action, $a$ ）：智能体在某个状态下可以采取的行为。例如，左转、加速、跳跃等。
奖励（Reward, $r$ ）：环境对智能体行动的即时反馈，通常是一个标量值。例如，赢一局游戏得+1分，撞墙得-1分。
策略（Policy, $π\pi$ ）：智能体的决策规则，定义了在给定状态下选择某个行动的概率。形式上， $π(a∣s)\pi(a|s)$ 表示在状态 $s$ 下选择行动 $a$ 的概率。
累计奖励（Cumulative Reward）：智能体在一段时间内获得的奖励总和，通常是强化学习优化的目标。

强化学习的流程可以概括为：

智能体观察当前状态 $s_t$ 。
根据策略 $π\pi$ 选择一个行动 $a_t$ 。
环境接收行动 $a_t$ ，返回一个奖励 $r_t$ 和下一个状态 $s_{t+1}$ 。
智能体更新策略，重复上述过程。

累计奖励是强化学习的核心目标，智能体的任务是通过调整策略来最大化这个值。

2. 累计奖励的定义

累计奖励是智能体在与环境交互的过程中，从某一时刻开始到未来某个时间点或整个交互过程结束所获得的奖励总和。它衡量了智能体行为的长期效果，而非仅关注某一步的即时奖励。

2.1 数学定义

假设智能体在时间步 $\dots$ 与环境交互，环境在每个时间步 $t$ 返回一个奖励 $r_t$ 。累计奖励（通常记为 $G_t$ ）是从时间步 $t$ 开始到未来某个时间点（可能是无限远）的奖励之和。

在 有限时间步（Finite Horizon） 的情况下，累计奖励定义为：
$Gt=rt+rt+1+rt+2+⋯+rTG_t = r_t + r_{t+1} + r_{t+2} + \dots + r_{T}$
其中 $T$ 是交互的终止时间步（例如，游戏结束）。

在无限时间步（Infinite Horizon）的情况下，直接求和可能导致数值发散，因此通常引入折扣因子（Discount Factor） $γ∈[0,1)\gamma \in [0, 1)$ ，来对未来的奖励进行折扣。累计奖励定义为：
$Gt=rt+γrt+1+γ2rt+2+γ3rt+3+⋯=∑k=0∞γkrt+kG_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \gamma^3 r_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k r_{t+k}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱看烟花的码农 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。