贡献
在R2R数据集上引入障碍来生成一个新的数据集R2R-UNO
,用来反映指令-现实的不匹配情况;由于当前VLN方法在有障碍的环境中缺乏适应性,提出ObVLN
方法,采用课程学习策略和一种新的虚拟图构建方式(为被遮挡的边引入虚拟节点),该方法在原始环境R2R和阻塞环境R2R-UNO中都表现良好。
Introduction
受到一些假设的限制,当前VLN任务还主要限制在模拟环境中,很少有部署在现实环境中的机器人身上。
一种重要限制就是“完美指令假设”,即指令总是和环境完美吻合,这忽略了环境中的动态情况,可能出现指令中未说明的障碍物。在该假设下训练的agent可以较好跟随指令,但缺乏对现实环境的适应性,因为现实环境中人类的指令和环境不符是十分常见的情况。如图1所示,我们指导agent【沿大厅直走】,但是现实环境中有物体挡住了走廊,人类可以很快适应绕过它,但是目前VLN-agent面对这种指令-现实不匹配的情况经常导航失败。
本文为了解决这个问题想要将这种现实世界中的”意外“引入到VLN数据集中,且本文在众多影响因素中关注的是障碍物本身。本文提出将障碍物集成到现有的离散VLN环境中(基于R2R数据增加障碍物)。阻断指令所描述的路径,造成指令-现实不匹配的情况。
在R2R数据集上对导航图和视觉观察进行修改,得到带有非预期障碍的R2R-UNO数据集。在导航图这个层面,有选择地阻断现有路径中那些移除掉但不影响整体连通性的边,确保agent能够到达目的地。在视觉层面上,这些被阻断的边的前一个连接结点的视图中可以认为是有障碍物存在的,所以设计了一个物体插入模块,该模块用到文本到图像的修改/修复技术,将不同的物体集成到不同场景中去。由于这种修改的效果不稳定,设计了一个过滤模块从多个候选项中选择出高质量的。用一些先进的VLN模型在R2R-UNO数据集上测试,效果不佳,说明在有障碍物的环境中,这些模型无法实际得到应用。
agent在有障碍和无障碍环境中都表现良好是很重要的。直接在这两个数据集上进行训练效果并不是很好,agent在处理这两类数据时很难判断哪个是匹配的,哪个不是匹配的,使得优化会偏向于一种类型。为了解决这个问题,提出了ObVLN方法,其包括一个课程训练策略来组织训练&#