[强化学习实战]函数近似方法-线性近似与函数近似的收敛性

本文介绍了线性近似在函数近似中的应用,特别是在强化学习中的策略评估和最优策略求解。线性最小二乘方法被用于策略评估的回合更新和时序差分更新,以及Q学习的最优策略求解。讨论了线性近似在保证某些条件下收敛的特性,并提到了Baird反例作为非收敛性的例子。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

线性近似

最常使用的函数近似就是线性近似和人工神经网络。本节介绍线性近似。线性近似是用许多特征向量的线性组合来近似价值函数。特征向量则依赖于输入(即状态或状态动作对)。以动作价值近似为例,我们可以为每个状态动作对定义多个不同的特征 x ( s , a ) = ( x j ( s , a ) : j ∈ J ) x(s,a)=(x_j(s,a):j∈\mathcal{J} ) x(s,a)=(xj(s,a):jJ),进而定义近似函数为这些特征的线性组合,即
在这里插入图片描述
对于状态函数也有类似的近似方法:
在这里插入图片描述

精确查找表与线性近似的关系

对于动作价值而言,可以认为有 ∣ S ∣ × ∣ A ∣ |S|×|A| S×A个特征向量,每个向量的形式为
在这里插入图片描述
即在某个的状态动作对处为1,其他都为0。这样,所有向量的线性组合就是整个动作价值函数,线性组合系数的值就是动作价值函数的值。

线性最小二乘策略评估

在使用线性近似的情况下,不仅可以使用基于随机梯度下降的策略评估方法,还可以使用线性最小二乘来进行策略评估。线性最小二乘是一种批处理(batch)方法,它每次针对多个经验样本,试图找到在整个样本集上最优的估计。

将线性最小二乘用于回合更新,可以得到线性最小二乘回合更新(Linear Least Square Monte Carlo,Linear LSMC)。线性最小二乘回合更新试图最小化
在这里插入图片描述
在线性近似的情形下,其梯度为
在这里插入图片描述
将待求的权重 w L S M C w_{LSMC} wLSMC代入上式并令其等于零,则有
在这里插入图片描述
求解该线性方程组得:
在这里插入图片描述
这样就得到了线性最小二乘回合更新的计算式。在实际使用时,直接使用上式更新权重,就实现了线性最小二乘回合更新。
将线性最小二乘用于时序差分,可以得到线性最小二乘时序差分更新(Linear Least Square Temporal Difference,Linear LSTD)。对于单步时序差分的情况,线性最小二乘时序差分试图最小化
在这里插入图片描述
其中 U t = R t + 1 + γ q ( S t + 1 , A t + 1 ;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值