强化学习中的策略梯度与REINFORCE算法详解
1. 策略梯度概述
在强化学习中,策略梯度是一个核心概念。我们已经定义了策略 $\pi_{\theta}$ 和目标函数 $J(\pi_{\theta})$,这两者是推导策略梯度算法的关键要素。策略为智能体提供了行动方式,而目标函数则提供了一个需要最大化的目标。
策略梯度算法的目标是解决如下问题:
[
\max_{\theta} J(\pi_{\theta}) = E_{\tau \sim \pi_{\theta}}[R(\tau)]
]
为了最大化这个目标,我们对策略参数 $\theta$ 执行梯度上升操作。根据微积分知识,梯度指向函数上升最快的方向。我们通过计算梯度并使用它来更新参数,更新公式如下:
[
\theta \leftarrow \theta + \alpha \nabla_{\theta} J(\pi_{\theta})
]
其中,$\alpha$ 是一个标量,称为学习率,用于控制参数更新的步长。$\nabla_{\theta} J(\pi_{\theta})$ 就是策略梯度,其定义为:
[
\nabla_{\theta} J(\pi_{\theta}) = E_{\tau \sim \pi_{\theta}} \left[ \sum_{t=0}^{T} R_t(\tau) \nabla_{\theta} \log \pi_{\theta}(a_t | s_t) \right]
]
这里,$\pi_{\theta}(a_t | s_t)$ 是智能体在时间步 $t$ 采取动作 $a_t$ 的概率,动作是从策略 $\pi_
超级会员免费看
订阅专栏 解锁全文
743

被折叠的 条评论
为什么被折叠?



