文 / Google Brain 团队学生研究员 Fereshteh Sadeghi
人们非常擅长操作物体,而无需将视角调整到某一固定或特定位置。这种能力(称为视觉动作整合)在孩童时期通过在各种情境中操作物体而习得,并由一种利用丰富的感官信号和视觉作为反馈的自适应纠错机制控制。不过,对于机器人技术中基于视觉的控制器而言,想要具备这种能力却十分困难。
直到现在,这种控制器都基于一种用于从固定安装式摄像头读取视觉输入数据的固定装置,训练和测试过程中不能移动或重新调整摄像头的位置。在视角大幅变化的情况下快速获取视觉运动控制技能的能力将对自主机器人系统产生重大影响。例如,这种能力对于参与紧急情况或灾区救援工作的机器人来说尤其必要。
在本周的 CVPR 2018 大会上,我们提交了名为“Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control”的论文。在这篇论文中,我们研究了一种新型深度网络架构(由两个完全卷积网络和一个长短期记忆单元组成),该架构可以从过去的动作和观察结果学习以进行自校准。我们的视觉适应网络利用由演示轨迹和强化学习目标组成的各种模拟数据,能够从各种视角控制机械臂到达各种视觉指示目标,并且不依赖于摄像头校准。
用物理机械臂到达视觉指示目标的视角不变操作
我们学习了一种策略,可以通过从截然不同的摄像头视角捕获的感官输入到达不同的目标
第一行所示为视觉指示目标
挑战
通过从未知视角捕获的单一图像分析可控自由程度 (DoF) 对视觉运动的影响可能不够明确和具体。确定动作对图像-空间运动的影响并成功执行所需的任务需要一个具备对过去动作的记忆能力的强大感知系统。要解决这一具有挑战性的问题,我们必须解决以下基本问题:
• 如何提供适当的经验,让机器人在模拟终身学习范式的纯视觉观察的基础上学习自适应行为?