<GPS> Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics

该论文提出了一种在未知动态环境中的策略搜索方法,结合了模型基和模型非基的优点。通过迭代拟合局部线性模型优化轨迹分布,用于指导策略搜索(GPS),学习任意参数的神经网络策略。算法通过限制KL-Divergence来稳定动态规划过程,并使用背景动态分布减少样本需求。实验表明,这种方法在复杂机器人任务中能有效学习到复杂的神经网络策略。

1. Abstract

该论文[2]承接于[1], 在前一篇博客中整理. 提出一个策略搜索方法, 算法中迭代的拟合局部线性模型去优化大型连续的轨迹分布, 得到的轨迹分布被用在引导策略搜索(GPS)算法中, 学习任意参数的策略. 论文拟合时变线性动态模型去加速局部动态拟合过程, 并不学习一个全局模型. 在全局动态模型复杂并且不连续的情况下, 很难被成功学习. 该算法是model-based和model-free的混合方法, 比model-free方法需求更少的样本, 又能很好的解决model-based方法难以成功学习复杂不连续动态模型的问题. 最后, 在仿真平台上, 针对环境部分可观测的复杂机器人操作任务, 算法能够成功学习到一个复杂的神经网络策略, 并取得一个比较理想的结果.

2. Preliminaries

策略搜索一般分为两类: model-based方法, 需要用到系统的动态模型, 而实际系统往往难以得到精准的系统模型. model-free方法, 仅仅依靠现实世界尝试去寻找最优策略, 不依赖于具体系统模型. model-free方法很好的避免了这个难题, 但是策略往往需要精细的设计, 低维度表示, 否则搜索时间太长, 需求样本过多, 搜索空间过大, 最终导致搜索陷入局部最优并失败.

策略搜索方法, 一般包括: 优化策略 πθ(utxt) 的参数 θ , 代价函数 (xt,ut) 的期望 Eπθ[Tt=1(xt,ut)] . 该期望是在策略和动态模型 p(utxt) 的条件下求得. 由策略和动态模型可以确定轨迹 ζ 的分布. 代价函数期望也可表示成: Eπθ[(ζ)] .

论文所述算法, 是学习一个时变线性高斯策略 p(utxt)=N(Ktxt+kt,Ct) . 当初始状态分布是一个比较窄的高斯分布时, 该结构的策略可以使用一些特别有效的优化方法来求解. 而任意参数的策略 πθ 使用GPS算法来优化, 通过匹配一个或多个高斯策略 p 来训练. 实验论证, 这样的方法比直接学习策略的参数 θ 效果要好.

3. Trajectory Optimization under Unknown Dynamics

在动态模型 N(fxtxt+futut,Ft) 未知的情况下, 我们可以利用前一个的线性高斯控制器 πθ(utxt) 在实际系统中运行, 获取到轨迹, ζi={ x1i,u1i,...,x

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值