最小二乘策略迭代 least-squares policy iteration (LSPI)

LSPI与Q学习：强化学习中的策略迭代

最新推荐文章于 2025-11-06 11:32:31 发布

原创

最新推荐文章于 2025-11-06 11:32:31 发布 · 5.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

LSPI（最小二乘策略迭代）结合了LSTD与Q学习，适用于免模型强化学习，尤其在倒立摆和自行车控制等任务中表现出色。通过与Q学习变体的对比实验，LSPI在倒立摆任务中实现稳定性能，而Q学习在添加经验重放后能取得类似效果。实验表明，LSPI和Q学习/ER在处理样本和策略改进方面各有优势。

LSPI是将价值函数逼近与线性架构和近似策略迭代相结合的方法。LSPI也可以理解为是LSTD与Q学习相结合。

用于预测问题的最小二乘时间差分学习算法（LSTD），学习固定策略的状态值函数，相比纯粹的时间差分算法更有效率地使用样本经验。

最小二乘策略迭代（LSPI）学习状态 - 动作值函数，该函数允许在没有模型的情况下进行动作选择，并且在策略迭代框架内进行增量策略改进。 LSPI是一种免模型(model free)的异策略（off-policy)方法，可以有效地（并在每次迭代中重用）以任何方式收集的样本经验。

将样本收集方法，线性近似架构的选择和求解方法这些剥离开，集中关注有利于实际强化学习的有区别的部分。 LSPI是在平衡倒立摆的简单任务上和平衡骑自行车到目标位置这种难一些的任务进行测试的。在这两种情况下，LSPI通过仅观察相对较少数量的试验来学习控制倒立摆或自行车，其中行动是随机选择的。

使用相同的值函数体系结构，把LSPI与Q学习（有和没有经验重放）进行比较。LSPI在艰难的自行车任务中相当一致地实现了良好的性能，而Q-learning变体很少能够保持平衡到目标位置所需的时间。

Q-learning变体倒立摆实验

使用相同的线性架构，使用Q学习重复相同的实验。以相同的方式收集样品，Q-学习在每次运行时单次通过样本组。学习率α根据典型的方式进行调整：

其中 $\alpha_0$ 是初始值，

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。