1. 强化学习基础
为了理解时序差分学习,我们先回顾强化学习的核心概念。强化学习是一种机器学习范式,目标是通过与环境的交互,让智能体学习一个最优策略,以最大化长期累积奖励。
强化学习的关键元素
- 智能体:执行动作的实体,如玩游戏的AI。
- 环境:智能体交互的外部世界,如游戏场景。
- 状态(sss):描述环境某一时刻的状况,如游戏中的位置、分数等。
- 动作(aaa):智能体在某状态下可采取的行为,如“向左走”。
- 奖励(rrr):环境对智能体动作的反馈,是标量值,如得分+1。
- 策略(π\piπ):智能体的决策规则,定义状态 sss 下选择动作 aaa 的概率,记为 π(a∣s)\pi(a|s)π(a∣s)。
- 价值函数:评估状态或动作的长期价值。
- 状态价值函数 Vπ(s)V^\pi(s)Vπ(s):在策略 π\piπ 下,从状态 sss 开始的预期累积奖励。
- 动作价值函数 Qπ(s,a)Q^\pi(s, a)Qπ(s,a):在策略 π\piπ 下,从状态 sss 采取动作 aaa 后的预期累积奖励。
- 折扣因子(γ\gammaγ):衡量未来奖励的重要性,0≤γ≤10 \leq \gamma \leq 10≤γ≤1。当 γ=0\gamma = 0γ=0 时,只关心即时奖励;当 γ=1\gamma = 1γ=1 时,未来奖励与当前同等重要。
强化学习的数学目标
强化学习的最终目标是找到一个最优策略 π∗\pi^*π∗,使状态价值函数 Vπ∗(s)V^{\pi^*}(s)Vπ∗(s) 或动作价值函数 Qπ∗(s,a)Q^{\pi^*}(s, a)Qπ∗(s,a) 最大化。通常,我们通过以下公式定义累积奖励(也叫回报):
Gt=rt+1+γrt+2+γ2rt+3+⋯G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdotsGt=rt+1+γrt+2+γ2rt+3+⋯
其中 GtG_tGt 是时间步 ttt 开始的折扣回报,rt+1r_{t+1}rt+1 是下一步的即时奖励。
强化学习的挑战
与监督学习不同,强化学习没有明确的标签,智能体需通过试错学习。价值函数的估计是核心问题,而时序差分学习是解决这一问题的有效方法。
2. 时序差分学习的定义与核心思想
什么是时序差分学习?
时序差分学习(TD Learning)是强化学习的核心方法,结合了蒙特卡洛方法和动态规划的优点,用于估计价值函数(如 V(s)V(s)V(s) 或 Q(s,a)Q(s, a)Q(s,a))。
- 核心思想:TD学习通过当前估计的价值函数和实际观察的奖励,逐步更新价值函数,无需等到回合结束。
- “时序差分”:利用时间序列中相邻时间步的“差分”更新价值估计。TD学习基于当前状态的奖励和下一状态的估计值,计算“误差”(TD误差),调整当前状态的价值。
为什么需要TD学习?
在强化学习中,价值函数 V(s)V(s)V(s) 或 Q(s,a)Q(s, a)Q(s,a) 通过预期累积奖励定义,但实际环境中,智能体无法直接计算完整回报 GtG_tGt。TD学习提供了一种在线、增量式的方法,使智能体在每步交互后即可更新价值估计。
TD学习的优点
- 在线学习:每步可更新价值函数,适合实时交互。
- 高效性:无需完整回合数据,计算成本低。
- 鲁棒性:对噪声和不完全信息适应性强。
3. TD学习的数学原理
为深入理解TD学习,我们从数学公式入手,以状态价值函数 V(s)V(s)V(s) 的估计为例,介绍TD学习的更新规则。
3.1 状态价值函数的定义
在策略 π\piπ 下,状态 sss 的价值函数 Vπ(s)V^\pi(s)Vπ(s) 定义为:
Vπ(s)=Eπ[Gt∣st=s]=Eπ[rt+1+γrt+2+γ2rt+3+⋯∣st=s]V^\pi(s) = \mathbb{E}_\pi [ G_t | s_t = s ] = \mathbb{E}_\pi [ r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots | s_t = s ]Vπ(s)=Eπ[Gt∣st=s]=Eπ

最低0.47元/天 解锁文章
777

被折叠的 条评论
为什么被折叠?



