强化学习2-value函数的近似

最新推荐文章于 2025-05-01 21:31:28 发布

原创最新推荐文章于 2025-05-01 21:31:28 发布 · 312 阅读

0 ·

CC 4.0 BY-SA版权

强化学习专栏收录该内容

3 篇文章

订阅专栏

本文探讨了在强化学习中，面对大量或连续状态时如何使用机器学习方法，特别是神经网络，来近似值函数或Q函数。通过MC、TD等方法结合神经网络的梯度传播，实现对值函数的有效估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在强化学习中，如果状态是比较少，可以使用表格的方法类存储所有的转态和动作，每个格子代表一个状态。

但是在类似围棋游戏中，每下一个子就是一种状态，那么这些状态就非常多了，如果在程序中要用一个表格来表示状态与状态对应的值函数的话，那么内存就远远不够用了。
另外，当状态不是离散的时候，就无法用表格来表示了。所以，我们需要另外的方法来表示状态与状态对应的值函数。所以需要机器学习(比如：各种神经网络模型)的放来用近似的预估value函数(或Q函数)。

先给出整体的迭代方式:

强化学习value函数的近似

1. 先看目标函数 $J (w)$ :
$J(w)=E_\pi[(v_\pi(s)-\hat{v}(S,w))^2]$ , 其中 $v_\pi(s)$ 是真实的值、 $\hat{v}(S,w)$ 是预估的值

2. 计算梯度:
$\Delta w = -\frac{1}{2}\frac{\partial J(w)}{\partial w} = E_\pi[(v_\pi(s)-\hat{v}(S,w))]\frac{\partial \hat{v}(S,w)}{\partial w}$
其中 $\frac{\partial \hat{v}(S,w)}{\partial w}$ 就是神经网络的梯度链式传播； $v_\pi(s)$ 有不同的预估方法。

3. $v_\pi(s)$ 在不同方法下的表示:
(1). MC方法:
$\quad v_\pi(s) = G_t \quad(G_t是return)$
此时， $\Delta w = -\frac{1}{2}\frac{\partial J(w)}{\partial w} = E_\pi[(G_t-\hat{v}(S_t,w))]\frac{\partial \hat{v}(S_t,w)}{\partial w}$