模仿学习与强化学习结合(IL+RL)有没有代表性论文?未来发展趋势如何?

IL 和 RL 的结合是当前 AI 领域比较火的方向,尤其是在机器人控制和复杂博弈这些需要边学边练 的场景里。最近有整理了一些经典论文、开源项目和最新趋势:

一、经典论文和开源项目

1. 先用 IL 预热,再用 RL 微调的经典套路

Dagger(2010):A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning (Dagger:Dataset Aggregation 数据集聚合)

算是 IL+RL 结合的老祖宗了。它先用 Behavior Cloning(BC)模仿专家数据,然后让 RL 在实际环境里试错,同时用专家反馈纠正偏差。

arxiv.org/pdf/1011.0686

摘要:像模仿学习这类序列预测问题(其中未来的观测依赖于之前的预测(动作)),违背了统计学习中常见的独立同分布(i.i.d.)假设。这在理论上往往也在实践中导致性能不佳。近期的一些方法(Daumé III 等人,2009 年;Ross 和 Bagnell,2010 年)在这种场景下提供了更强的保证,但仍在一定程度上不能令人满意,因为它们要么训练非平稳的策略,要么训练随机策略,并且需要大量迭代。在本文中,我们提出一种新的迭代算法,它训练一个平稳的确定性策略,该策略可被视为在线学习场景下的无遗憾算法。我们证明:任何此类无遗憾算法,结合额外的归约假设,在这种序列场景下由其诱导的观测分布下,必定能找到一个性能良好的策略。我们在两个具有挑战性的模仿学习问题和一个基准序列标注问题上证明,这种新方法优于之前的方法。


​GAIL(2016):Generative Adversarial Imitation Learning

用对抗学习的思路,让 RL 自己从专家轨迹里猜奖励函数。在训练机器人抓东西,专家演示怎么抓,GAIL 的判别器会告诉 RL ,你这个动作像不像专家,然后 RL 根据这个反馈调整策略。

https://arxiv.org/pdf/1606.03476

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值