[CV] 基于机器视觉和强化学习的导航

本文深入解析CVPR2019中关于视觉语言导航(VLN)的前沿研究,介绍了一种结合强化学习(Reinforcement Learning, RL)与模仿学习(Imitation Learning, IL)的新模型——Reinforced Cross-Modal Matching (RCM),该模型在R2R数据集上实现了最佳性能,并提出Self-Supervised Imitation Learning (SIL)以提升机器人在未知环境中的导航能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文学习CVPR 2019 论文:

 

1.Abstract

作者提出视觉导航是目前很火的一个方向,然后提出了基于自然语言理解的导航

提到了几个名词:

VLN : Vision-language navigation

VLN的定义是,让一个机器可以在一个真实的3D环境中执行自然语言的指令并执行导航

RL : reinforcement learning 强化学习

RCM : Reinforced Cross-Modal Matching

作者提出了一种自主监督模仿的学习方法 SIL : Self-Superviserd Imitation Learning  来使得机器基于过去的

经验在陌生环境下做出决策,这种方法据作者所说将见过的和没有见过的环境下机器人的导航表现差异由30%降到10%

这里有一个疑问,作者提到:

Evaluation on a VLN
benchmark dataset shows that our RCM model significantly
outperforms previous methods by 10% on SPL and achieves
the new state-of-the-art performance.

那么SPL是什么?

2.Introduction & Related Work

2.1 Introduction

本文是结合强化学习(Reinforcement Learning)(RL) 和模仿学习(Imitation learning)(IL) 提出了一个新的强化学习模型

RCM -(Reinforcement Cross-Modal Matching)

设计了一个reasoning navigator 学习这种跨模型(基于textual instruction & visual scence 训练(grounding))

并设计了一个matching critic 来评估已经执行过的路径,通过计算 重新建立新的路径时,仍然会选择这条路径的 概率

将这种机制称为 cycle-reconstruction reward mechanism 循环重建的奖励机制

通过奖励对语言输入更好的路径,惩罚不好的路径,就可以让机器人有更好的路径规划

例如,图中的B路径比C路径更好:

使用内在的训练机制 (matching critic)得到的intrinsic reward 和从外界环境 得到的外界环境奖励(extrinsic reward)

推断器 reasoning navigator 就能够学会从将输入的自然语言指令 基于两个方面进行综合分析和执行:

  1.  local spatial visual scene  实况情景,如具体在某个房间看到的情景
  2.  Global temporal visual trajectory 总体路线规划

为了缩小目前机器人对于已经见过和没有见过的场景之下表现的巨大沟鸿,科研团队提出了一种 新方法:

Self-Supervised Imitation Learning (SIL) method,用来提高机器人在没有见过的新情况下的应变能力

这套机制是一种非常有效的可以让机器人终生学的机制,有效的路径规划会被记录下来,以供以后使用

总结一下:这篇文章的研究可以分为三层:

  1. 提出一种新的跨类型输入的强化学习模型 : Reinforced Cross-Model Matching (RCM)
  2. 经过R2R数据集测试发现这种模型是目前最高水平
  3. 提出了一种自监督学习算法:Self-Supervised Imitation Learning (SIL),并给VLN算法提供了一个新的指标- exploring unseen environment

2.2 Related Work

2.2.1 Vision-and-language Grounding

提到了过去的研究都是静态的视频输入和文字描述,这个团队做的是动态的真实环境的输入和描述

2.2.2 Embodied Navigation Agent

前人Wang提出了融合无模型和有模型的强化学习方法来增强泛化能力

前人Fried还提出了适应数据增长、全景空间、束搜索(beam search ?不懂)的方法

研究团队基于前人的工作,提出了RCM模型

RCM模型主要是基于Fried的模型修改得来,改进:

  1. 将奖赏机制由单一变为多元
  2. RCM是跨模型训练,之前的为单一模型输入训练
  3. matching critic的设计是参照Fried的speaker-follower model模型做出的,改进在于maching critic可以为研究者们设计的新的两个训练过程RL(强化学习过程)和SIL(自监督学习过程)提供循环重建(cycle-reconstrcution)的奖励,Speaker模型用来为强化学习增大数据集(augment training data)

2.2.3 Exploration

基于前人的自己模仿自己的学习方法的研究:

研究团队提出了 Self-Supervised Imitation Learning (SIL) method

(之前的研究是基于游戏环境进行测试的)

3. Reinforced Cross-Model Matching

开始正式介绍这个模型RCM

3.1 Overview

 

3.2 Model

3.2.1 Cross-Modal Reasoning Navigator

 

3.2.2 Cross-Model Matching Critic

 

3.3 Learning

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值