IL 和 RL 的结合是当前 AI 领域比较火的方向,尤其是在机器人控制和复杂博弈这些需要边学边练 的场景里。最近有整理了一些经典论文、开源项目和最新趋势:
一、经典论文和开源项目
1. 先用 IL 预热,再用 RL 微调的经典套路
Dagger(2010):A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning (Dagger:Dataset Aggregation 数据集聚合)
算是 IL+RL 结合的老祖宗了。它先用 Behavior Cloning(BC)模仿专家数据,然后让 RL 在实际环境里试错,同时用专家反馈纠正偏差。

arxiv.org/pdf/1011.0686
摘要:像模仿学习这类序列预测问题(其中未来的观测依赖于之前的预测(动作)),违背了统计学习中常见的独立同分布(i.i.d.)假设。这在理论上往往也在实践中导致性能不佳。近期的一些方法(Daumé III 等人,2009 年;Ross 和 Bagnell,2010 年)在这种场景下提供了更强的保证,但仍在一定程度上不能令人满意,因为它们要么训练非平稳的策略,要么训练随机策略,并且需要大量迭代。在本文中,我们提出一种新的迭代算法,它训练一个平稳的确定性策略,该策略可被视为在线学习场景下的无遗憾算法。我们证明:任何此类无遗憾算法,结合额外的归约假设,在这种序列场景下由其诱导的观测分布下,必定能找到一个性能良好的策略。我们在两个具有挑战性的模仿学习问题和一个基准序列标注问题上证明,这种新方法优于之前的方法。
GAIL(2016):Generative Adversarial Imitation Learning
用对抗学习的思路,让 RL 自己从专家轨迹里猜奖励函数。在训练机器人抓东西,专家演示怎么抓,GAIL 的判别器会告诉 RL ,你这个动作像不像专家,然后 RL 根据这个反馈调整策略。

https://arxiv.org/pdf/1606.03476
<
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



