价值函数近似

最新推荐文章于 2024-07-14 17:35:25 发布

lsjmax

最新推荐文章于 2024-07-14 17:35:25 发布

阅读量608

点赞数 1

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：强化学习价值函数近似

本文链接：https://blog.youkuaiyun.com/lsjmax/article/details/102620220

本文介绍了在强化学习中，由于表格存储方法不适用于大规模问题，因此采用价值函数近似器如线性模型、神经网络等来拟合真实价值函数。通过建立误差函数并使用梯度下降法进行优化，寻找最佳参数θ。讨论了随机梯度下降在强化学习中的应用，并详细阐述了MC、TD(0)和TD(λ)三种近似增量求解算法。在训练过程中，通过与环境交互获取样本，迭代优化参数θ。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

价值函数逼近

在传统TD算法、Q-leanring中，V价值和Q价值通常是用表格存储，不适用于大规模问题。可以采用近似器来拟合真实的价值函数。
$Q(s,a,θ)≈Qπ(s,a)Q(s,a,\theta) ≈Q_π(s,a)$
$V(s,θ)≈Vπ(s)V(s,\theta) ≈V_π(s)$
用一个带 $θ\theta$ 参数的函数近似器，来代替真实的价值函数，通过训练，找到合适的参数 $θ\theta$ ，使得两者的误差尽可能小。( $θ\theta$ 是一系列参数的总称，不是指只有一个参数， $θT=[θ1,θ2,...]\theta^T=[\theta_1,\theta_2,...]$ )
常用的近似器有线性模型、神经网络、决策树、最近邻法等。
强化学习的样本数据是非静态的，且非独立同分布(后一个状态往往与前一个状态有很强的关联性)，因此要求近似器也要适用于非静态、非独立同分布的数据。

价值函数近似求解

找到了合适的价值函数的近似器 $V(s,θ)V(s,\theta)$ ，如何找到合适的 $θ\theta$ ，使得近似器能够真正代替真实 $V_π(s)$ 。建立一个两者的平方误差函数，
$J(θ)=E[(Vπ(s)−(V(s,θ))2]J(\theta)=E[(V_π(s)-(V(s,\theta))^2]$
转化成求函数 $J(θ)J(\theta)$ 的优化问题，即找到 $θ\theta$ 使得 $J(θ)J(\theta)$