递归分类最佳实践：如何在强化学习中用示例代替奖励

递归分类：用示例教授强化学习的智能体

原创

于 2021-05-12 10:43:56 发布 · 1.9k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

谷歌研究学生研究员Benjamin Eysenbach提出了一种新的机器学习算法——递归示例分类（RCE），该算法允许智能体通过成功示例而不是奖励函数来学习执行任务。RCE在模拟机器人任务中表现出色，无需手动定义奖励函数，简化了教导机器人新任务的过程。这种方法与基于奖励和模仿学习的方法相比，更易于用户使用，并且在一系列挑战性任务中表现出高成功率。

发布人：Google Research 学生研究员 Benjamin Eysenbach

机器人研究的总体目标是设计出这样的系统：能够协助人类完成各种可以改善日常生活的任务。大多数用于教导智能体执行新任务的强化学习算法都需要使用奖励函数 (Reward Function)。该函数在智能体采取的行动可以带来良好结果时，会向智能体提供正向反馈。

然而，在实际当中，这些奖励函数的指定过程相当繁琐，并且在没有明确目标的情况下非常难以定义，例如房间是否干净或门是否关得够严实。即使是容易描述的任务，要去实际衡量其完成情况也很困难，可能需要在机器人环境中添加许多传感器。

添加许多传感器

https://ai.googleblog.com/2016/10/how-robots-can-acquire-new-skills-from.html

另一种做法是使用示例训练模型，即所谓的基于示例的控制 (Example-Based Control)，这种方法有可能克服依赖传统奖励函数之方法的局限性。这一新问题的陈述与之前基于“成功检测器”的方法最为相似，非专业用户即使不具备编码专业知识、不了解奖励函数设计或未安装环境传感器，也可利用基于示例控制的高效算法，教会机器人执行新任务。

之前

https://arxiv.org/abs/1805.11686
方法

https://arxiv.org/abs/1904.07854

在《用示例代替奖励：通过递归分类实现基于示例的策略搜索》(Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification) 一文中，我们提出一种机器学习算法，通过提供成功示例，教导智能