模仿学习（第四周）

最新推荐文章于 2025-09-30 08:00:00 发布

原创

最新推荐文章于 2025-09-30 08:00:00 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

模仿学习是解决强化学习中多步决策问题的有效方法，尤其在机器人和NLP领域。它通过学习专家的决策数据来构建最优策略模型。本文介绍了模仿学习的基本概念，及其在视觉导航和Atari游戏等领域的应用。同时，讨论了深度强化学习结合的困难，如数据稀疏性和状态相关性，并提出了解决方案。最后，提到了几个重要的研究论文，包括Deep Q-Networks（DQN）的改进，强调了稳定性和过优化问题的解决策略。

在传统的强化学习任务中，通常通过计算累积奖赏来学习最优策略（policy），这种方式简单直接，而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策（sequential decision）中，学习器不能频繁地得到奖励，且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。而模仿学习（Imitation Learning）的方法经过多年的发展，已经能够很好地解决多步决策问题，在机器人、 NLP 等领域也有很多的应用。
模仿学习概念
模仿学习是指从示教者提供的范例中学习，一般提供人类专家的决策数据，每个决策包含状态和动作序列，将所有「状态-动作对」抽取出来构造新的集合。

之后就可以把状态作为特征（feature），动作作为标记（label）进行分类（对于离散动作）或回归（对于连续动作）的学习从而得到最优策略模型。模型的训练目标是使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配。从某种角度说，有点像自动编码器（Autoencoder）也与目前大火的 GANs 很类似。

关于模仿学习的相关资料目前能找到的比较少，暂且先看这些。

看论文：
（1）Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

对于基于DRL的算法，确实存在论文指出的的缺点：1、对目标的泛化能力比较弱；2、数据的低效性，无法从模拟环境转移到真实世界（deepmind在今年发表了一篇论文，用transfer learning的办法实现从模拟环境到真实环境）。

为了解决第一个问题，论文采用的办法是把目标作为输入引人网络，而不是硬编码到网络参数中。所以，算法提出的网络是把state和target goal都当成输入，这样就泛化了目标，解决了更换目标就要重新训练网络的问题。即使即使目标没有被训练过，也能使用。为了解决第二个问题，论文提出了AI2-THOR框架，它提供了一个具有高质量3D场景和物理引擎的环境。AI2-THOR框架使代理能够采取行动并与对象进行交互。
优点：
（1）比最先进的深