LSPI是将价值函数逼近与线性架构和近似策略迭代相结合的方法。LSPI也可以理解为是LSTD与Q学习相结合。
用于预测问题的最小二乘时间差分学习算法(LSTD),学习固定策略的状态值函数,相比纯粹的时间差分算法更有效率地使用样本经验。
最小二乘策略迭代(LSPI)学习状态 - 动作值函数,该函数允许在没有模型的情况下进行动作选择,并且在策略迭代框架内进行增量策略改进。 LSPI是一种免模型(model free)的异策略(off-policy)方法,可以有效地(并在每次迭代中重用)以任何方式收集的样本经验。
将样本收集方法,线性近似架构的选择和求解方法这些剥离开,集中关注有利于实际强化学习的有区别的部分。 LSPI是在平衡倒立摆的简单任务上和平衡骑自行车到目标位置这种难一些的任务进行测试的。在这两种情况下,LSPI通过仅观察相对较少数量的试验来学习控制倒立摆或自行车,其中行动是随机选择的。
使用相同的值函数体系结构,把LSPI与Q学习(有和没有经验重放)进行比较。LSPI在艰难的自行车任务中相当一致地实现了良好的性能,而Q-learning变体很少能够保持平衡到目标位置所需的时间。
Q-learning变体倒立摆实验
使用相同的线性架构,使用Q学习重复相同的实验。以相同的方式收集样品,Q-学习在每次运行时单次通过样本组。学习率α根据典型的方式进行调整:
![]()
其中是初始值,
LSPI与Q学习:强化学习中的策略迭代

LSPI(最小二乘策略迭代)结合了LSTD与Q学习,适用于免模型强化学习,尤其在倒立摆和自行车控制等任务中表现出色。通过与Q学习变体的对比实验,LSPI在倒立摆任务中实现稳定性能,而Q学习在添加经验重放后能取得类似效果。实验表明,LSPI和Q学习/ER在处理样本和策略改进方面各有优势。
最低0.47元/天 解锁文章
692





