Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigatio

摘要

        视觉语言导航(VLN)的任务是导航一个具体的代理,在真实的3D环境中执行自然语言命令。在这篇文章,我们研究如何解决这个任务中三个至关重要的挑战:跨交叉模态基标对准,不适定反馈,泛化问题。首先,我们提出了一个新颖基于强化学习跨模态匹配(RCM)方法,执行跨交叉模态基标对准在局部和全局中,通过强化学习(RL)。另外,一个匹配评价是用提供一个内在奖励来鼓励在指令和轨迹全局匹配,一个推理导航器应用来执行跨交叉模态基标对准在局部视觉场景。在一个VLN基准数据集上进行评估,我们的RCM模型在SPL比先前的方法增强了10%以及实现了最先进的表现。为提高普遍的学习机制,我们将介绍一个自监督模仿学习(SIL)方法,通过模仿它自己过去好的决策,来去探索未知的环境。我们证明SIL能够估计一个较好和高效的策略,极大地最小化在看见和未看见环境之间成功率表现的差距。(从30.7%到11.7%)

                                             

                                                  

结论

       在这篇文章我们展示两个新颖的方法,RCM和SIL,结合了强大的增强学习和自监督模仿学习来实现视觉语言导航任务。实验证明我们的方法的有效和高效,在标准的测试环境和终身学习的场景下。另外,我们的方法展示了非常强大的普遍适应性在未知的环境。建议学习架构是模块化和模块不可知论,允许组成去单独地提高。我们也相信学习较多细粒度内在奖励的建议,另外粗糙外部信号,同时地应用到各种嵌入式管理任务,SIL建议能够普遍适用于探索其它未知环境。

了解更多关于《计算机视觉与图形学》相关知识,请关注公众号:

下载我们视频中代码和相关讲义,请在公众号回复:计算机视觉课程资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值