1. 背景:强化学习与策略梯度方法
为了理解广义优势估计(GAE),我们需要先回顾强化学习的基础知识,特别是策略梯度方法,因为 GAE 是策略梯度方法中的关键优化工具。
1.1 强化学习基本框架
强化学习的目标是让一个智能体通过与环境交互,学习一个策略,以最大化长期累积奖励。形式化地:
- 状态:st∈Ss_t\in\mathcal{S}st∈S,表示智能体在时间ttt所处的环境状态。
- 动作:at∈Aa_t\in\mathcal{A}at∈A,智能体根据策略选择的行为。
- 策略:π(a∣s)\pi(a|s)π(a∣s),一个概率分布,表示在状态sss下选择动作aaa的概率。通常用神经网络参数化,记为πθ(a∣s)\pi_\theta(a|s)πθ(a∣s)。
- 奖励:rt=r(st,at)r_t=r(s_t,a_t)rt=r(st,at),智能体在状态sts_tst执行动作ata_tat后从环境获得的即时奖励。
- 回报:Gt=rt+γrt+1+γ2rt+2+…G_t=r_t+\gamma r_{t+1}+\gamma^2r_{t+2}+\dotsGt=rt+γrt+1+γ2rt+2+…,从时间ttt开始的折扣累积奖励,其中γ∈[0,1)\gamma\in[0,1)γ∈[0,1)是折扣因子。
- 价值函数:
- 状态价值函数:Vπ(s)=Eπ[Gt∣st=s]V^\pi(s)=\mathbb{E}_\pi[G_t|s_t=s]Vπ(s)=Eπ[Gt∣st=s],表示在状态sss下,遵循策略π\piπ的期望回报。
- 动作价值函数:Qπ(s,a)=Eπ[Gt∣st=s,at=a]Q^\pi(s,a)=\mathbb{E}_\pi[G_t|s_t=s,a_t=a]Qπ(s,a)=Eπ[Gt∣st=s,at=a],表示在状态sss采取动作aaa后的期望回报。
- 优势函数:Aπ(s,a)=Qπ(s,a)−Vπ(s)A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)Aπ(s,a)=Qπ(s,a)−Vπ(s),衡量在状态sss下选择动作aaa相比平均情况(即Vπ(s)V^\pi(s)Vπ(s))的好坏。
强化学习的目标是找到最优策略π∗\pi^*π∗,使得期望回报最大化:
J(π)=Eπ[∑t=0∞γtr(st,at)] J(\pi)=\mathbb{E}_\pi\left[\sum_{t=0}^\infty\gamma^t r(s_t,a_t)\right] J(π)=Eπ[t=0∑∞γtr(st,at)]
1.2 策略梯度方法
策略梯度方法通过直接优化策略πθ(a∣s)\pi_\theta(a|s)πθ(a∣s)的参数θ\thetaθ来最大化期望回报J(θ)J(\theta)J(θ)。核心思想是计算目标函数J(θ)J(\theta)J(θ)对θ\thetaθ的梯度∇θJ(θ)\nabla_\theta J(\theta)∇θJ(θ),并通过梯度上升更新参数:
θ←θ+α∇θJ(θ) \theta\leftarrow\theta+\alpha\nabla_\theta J(\theta) θ←θ+α∇θJ(θ)
其中α\alphaα是学习率。
根据策略梯度定理,梯度可以表示为:
∇θJ(θ)=Eπ[∇θlogπθ(at∣st)Qπ(st,at)] \nabla_\theta J(\theta)=\mathbb{E}_\pi\left[\nabla_\theta\log\pi_\theta(a_t|s_t)Q^\pi(s_t,a_t)\right] ∇θJ(θ)=E

最低0.47元/天 解锁文章
171

被折叠的 条评论
为什么被折叠?



