时序差分学习(Temporal Difference Learning, TD Learning)

1. 强化学习基础

为了理解时序差分学习,我们先回顾强化学习的核心概念。强化学习是一种机器学习范式,目标是通过与环境的交互,让智能体学习一个最优策略,以最大化长期累积奖励。

强化学习的关键元素

  • 智能体:执行动作的实体,如玩游戏的AI。
  • 环境:智能体交互的外部世界,如游戏场景。
  • 状态(sss:描述环境某一时刻的状况,如游戏中的位置、分数等。
  • 动作(aaa:智能体在某状态下可采取的行为,如“向左走”。
  • 奖励(rrr:环境对智能体动作的反馈,是标量值,如得分+1。
  • 策略(π\piπ:智能体的决策规则,定义状态 sss 下选择动作 aaa 的概率,记为 π(a∣s)\pi(a|s)π(as)
  • 价值函数:评估状态或动作的长期价值。
    • 状态价值函数 Vπ(s)V^\pi(s)Vπ(s):在策略 π\piπ 下,从状态 sss 开始的预期累积奖励。
    • 动作价值函数 Qπ(s,a)Q^\pi(s, a)Qπ(s,a):在策略 π\piπ 下,从状态 sss 采取动作 aaa 后的预期累积奖励。
  • 折扣因子(γ\gammaγ:衡量未来奖励的重要性,0≤γ≤10 \leq \gamma \leq 10γ1。当 γ=0\gamma = 0γ=0 时,只关心即时奖励;当 γ=1\gamma = 1γ=1 时,未来奖励与当前同等重要。

强化学习的数学目标

强化学习的最终目标是找到一个最优策略 π∗\pi^*π,使状态价值函数 Vπ∗(s)V^{\pi^*}(s)Vπ(s) 或动作价值函数 Qπ∗(s,a)Q^{\pi^*}(s, a)Qπ(s,a) 最大化。通常,我们通过以下公式定义累积奖励(也叫回报):

Gt=rt+1+γrt+2+γ2rt+3+⋯G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdotsGt=rt+1+γrt+2+γ2rt+3+

其中 GtG_tGt 是时间步 ttt 开始的折扣回报,rt+1r_{t+1}rt+1 是下一步的即时奖励。

强化学习的挑战

与监督学习不同,强化学习没有明确的标签,智能体需通过试错学习。价值函数的估计是核心问题,而时序差分学习是解决这一问题的有效方法。


2. 时序差分学习的定义与核心思想

什么是时序差分学习?

时序差分学习(TD Learning)是强化学习的核心方法,结合了蒙特卡洛方法和动态规划的优点,用于估计价值函数(如 V(s)V(s)V(s)Q(s,a)Q(s, a)Q(s,a))。

  • 核心思想:TD学习通过当前估计的价值函数和实际观察的奖励,逐步更新价值函数,无需等到回合结束。
  • “时序差分”:利用时间序列中相邻时间步的“差分”更新价值估计。TD学习基于当前状态的奖励和下一状态的估计值,计算“误差”(TD误差),调整当前状态的价值。

为什么需要TD学习?

在强化学习中,价值函数 V(s)V(s)V(s)Q(s,a)Q(s, a)Q(s,a) 通过预期累积奖励定义,但实际环境中,智能体无法直接计算完整回报 GtG_tGt。TD学习提供了一种在线、增量式的方法,使智能体在每步交互后即可更新价值估计。

TD学习的优点

  1. 在线学习:每步可更新价值函数,适合实时交互。
  2. 高效性:无需完整回合数据,计算成本低。
  3. 鲁棒性:对噪声和不完全信息适应性强。

3. TD学习的数学原理

为深入理解TD学习,我们从数学公式入手,以状态价值函数 V(s)V(s)V(s) 的估计为例,介绍TD学习的更新规则。

3.1 状态价值函数的定义

在策略 π\piπ 下,状态 sss 的价值函数 Vπ(s)V^\pi(s)Vπ(s) 定义为:

Vπ(s)=Eπ[Gt∣st=s]=Eπ[rt+1+γrt+2+γ2rt+3+⋯∣st=s]V^\pi(s) = \mathbb{E}_\pi [ G_t | s_t = s ] = \mathbb{E}_\pi [ r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots | s_t = s ]Vπ(s)=Eπ[Gtst=s]=Eπ

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值