发布人:Google Research 学生研究员 Benjamin Eysenbach
机器人研究的总体目标是设计出这样的系统:能够协助人类完成各种可以改善日常生活的任务。大多数用于教导智能体执行新任务的强化学习算法都需要使用奖励函数 (Reward Function)。该函数在智能体采取的行动可以带来良好结果时,会向智能体提供正向反馈。
然而,在实际当中,这些奖励函数的指定过程相当繁琐,并且在没有明确目标的情况下非常难以定义,例如房间是否干净或门是否关得够严实。即使是容易描述的任务,要去实际衡量其完成情况也很困难,可能需要在机器人环境中添加许多传感器。
另一种做法是使用示例训练模型,即所谓的基于示例的控制 (Example-Based Control),这种方法有可能克服依赖传统奖励函数之方法的局限性。这一新问题的陈述与之前基于“成功检测器”的方法最为相似,非专业用户即使不具备编码专业知识、不了解奖励函数设计或未安装环境传感器,也可利用基于示例控制的高效算法,教会机器人执行新任务。
在《用示例代替奖励:通过递归分类实现基于示例的策略搜索》(Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification) 一文中,我们提出一种机器学习算法,通过提供成功示例,教导智能体如何完成新任务(例如,如果“成功”示例显示钉子嵌入墙内,则智能体将学会拿起锤子将