最小二乘策略迭代 least-squares policy iteration (LSPI)

LSPI(最小二乘策略迭代)结合了LSTD与Q学习,适用于免模型强化学习,尤其在倒立摆和自行车控制等任务中表现出色。通过与Q学习变体的对比实验,LSPI在倒立摆任务中实现稳定性能,而Q学习在添加经验重放后能取得类似效果。实验表明,LSPI和Q学习/ER在处理样本和策略改进方面各有优势。

LSPI是将价值函数逼近与线性架构和近似策略迭代相结合的方法。LSPI也可以理解为是LSTD与Q学习相结合。

用于预测问题的最小二乘时间差分学习算法(LSTD),学习固定策略的状态值函数,相比纯粹的时间差分算法更有效率地使用样本经验。

最小二乘策略迭代(LSPI)学习状态 - 动作值函数,该函数允许在没有模型的情况下进行动作选择,并且在策略迭代框架内进行增量策略改进。 LSPI是一种免模型(model free)的异策略(off-policy)方法,可以有效地(并在每次迭代中重用)以任何方式收集的样本经验。

将样本收集方法,线性近似架构的选择和求解方法这些剥离开,集中关注有利于实际强化学习的有区别的部分。 LSPI是在平衡倒立摆的简单任务上和平衡骑自行车到目标位置这种难一些的任务进行测试的。在这两种情况下,LSPI通过仅观察相对较少数量的试验来学习控制倒立摆或自行车,其中行动是随机选择的。

使用相同的值函数体系结构,把LSPI与Q学习(有和没有经验重放)进行比较。LSPI在艰难的自行车任务中相当一致地实现了良好的性能,而Q-learning变体很少能够保持平衡到目标位置所需的时间。

 

 

Q-learning变体倒立摆实验

使用相同的线性架构,使用Q学习重复相同的实验。以相同的方式收集样品,Q-学习在每次运行时单次通过样本组。学习率α根据典型的方式进行调整:


其中\alpha_0是初始值,

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值