价值函数逼近
在传统TD算法、Q-leanring中,V价值和Q价值通常是用表格存储,不适用于大规模问题。可以采用近似器来拟合真实的价值函数。
Q(s,a,θ)≈Qπ(s,a)Q(s,a,\theta) ≈Q_π(s,a)Q(s,a,θ)≈Qπ(s,a)
V(s,θ)≈Vπ(s)V(s,\theta) ≈V_π(s)V(s,θ)≈Vπ(s)
用一个带θ\thetaθ参数的函数近似器,来代替真实的价值函数,通过训练,找到合适的参数θ\thetaθ,使得两者的误差尽可能小。(θ\thetaθ是一系列参数的总称,不是指只有一个参数,θT=[θ1,θ2,...]\theta^T=[\theta_1,\theta_2,...]θT=[θ1,θ2,...])
常用的近似器有线性模型、神经网络、决策树、最近邻法等。
强化学习的样本数据是非静态的,且非独立同分布(后一个状态往往与前一个状态有很强的关联性),因此要求近似器也要适用于非静态、非独立同分布的数据。
价值函数近似求解
找到了合适的价值函数的近似器V(s,θ)V(s,\theta)V(s,θ),如何找到合适的θ\thetaθ,使得近似器能够真正代替真实Vπ(s)V_π(s)Vπ(s)。建立一个两者的平方误差函数,
J(θ)=E[(Vπ(s)−(V(s,θ))2]J(\theta)=E[(V_π(s)-(V(s,\theta))^2]J(θ)=E[(Vπ(s)−(V(s,θ))2]
转化成求函数J(θ)J(\theta)J(θ)的优化问题,即找到θ\thetaθ使得J(θ)J(\theta)