一、Motivation
以前的方法在处理机器人自然语言命令问题时,常常忽视了视觉信息处理的重要性。
- 使用渲染图像(而不是真实图像)来训练机器人,这样做限制了可见对象的范围,只包括渲染器可用的手工制作的模型(如在模拟器中生成的3D建模物体)。
- 使用标签代替图像信息
逐渐将一个复杂的开放集问题(识别和理解真实世界中的任何物体),简化为一个简单的封闭集分类问题(只识别和理解预先定义好的、有限的物体集合)
这种方法减少了机器人需要处理和识别的物体多样性,从而降低了问题的难度和实际应用的范围。但同时限制了机器人在现实世界中的适应性和能力。
二、Contribution
- 提出了Matterport3D Simulator,使用Matterport 3D全景RGB-D数据集进行视觉RL的软件框架
- 提出了Room-to-Room数据集,第一个在unseen的真实世界中进行VLN的benchmark
- 本文研究了在真实世界中VLN任务的难度,特别是在unseen环境中操作的难度,使用了seq-to-seq网络模型在R2R数据集上进行视线,建立了一些baseline模型
三、Matterport3D Simulator
一个新的大规模视觉RL模拟环境,可以用来进行agent的研究。它基于Matterport3D数据集构建
3.1 Matterport3D Dataset
许多RGB-D数据集是从视频序列中截取的,这些数据集通常只提供通过场景的一条或两条路径, 这使得它们不足以模拟机器人运动。
与这些数据集相比,最近发布的Matterport 3D数据集包含一组全面的全景视图。据我们所知,它也是目前最大的RGB-D研究数据集。
数据集的构成
(该部分对于使用不是很重要,直接翻译了原文)
Matterport3D数据集包含了10,800个全景视图,这些视图是由194,400个RGB-D图像构建而成的,这些图像来自90个建筑规模的场景。全景视图平均分布在每个场景的可步行楼层平面内,视图之间的平均间隔为2.25米。 每个全景视图由18个RGB-D图像组成,这些图像是从一个单一的3D位置捕获的,该位置大约与站立成人高度相当。每个图像都带有精确的6自由度(6 DoF)相机姿态标注,这些图像共同捕捉了整个球面,除了极点之外。 数据集还包括全局对齐的、带有纹理的3D网格,这些网格对区域(如房间)和对象进行了类别和实例分割的标注。 在视觉多样性方面,所选的Matterport场景涵盖了各种类型的建筑,包括大小和复杂性各不相同的房屋、公寓、酒店、办公室和教堂。这些建筑包含了巨大的视觉多样性,对计算机视觉提出了实际挑战。
3.2 Simulator
在构建agent模拟器时,需要我们确定agent如何进行观察(获取视觉信息)和移动(action)。
Observations
为了构建这个模拟器,我们允许一个agent在场景中虚拟地“移动”,方法是采用与全景视点相对应的姿势。
在构建数据集时采用了一定的姿势,如高度=人的站立高度,在agent观察环境时,采用相同的姿势进行观察,获取相应的视觉图像。
代理的姿势由三个参数定义:3D位置v(属于集合V),航向ψ(在0到2π之间),以及相机仰角θ(在−π/2到π/2之间)。
这里的V是与场景中全景视点相关联的3D点集合。 在每一个时间步t,模拟器输出一个RGB图像观察值ot,这个观察值对应于代理的第一人称相机视角。这些图像是通过在每个视点处预先计算好的立方体贴图(cube-mapped)图像的透视投影生成的。
总结来说,这段话说明了如何通过定义代理在3D空间中的位置和方向来构建一个模拟器,以及模拟器如何生成代理视角下的图像。(本文的模拟器不支持深度信息)
Action Space
实现模拟器的主要挑战在于确定依赖于状态的动作空间。
行动的一个关键是防止代理通过墙壁和地板进行瞬移,或穿越空间中的其他不可导航区域。因此,在每一个时间步t,模拟器还会输出一组在下一步可到达的全景视点 W t + 1 W_{t+1} Wt+1,这是集合V的一个子集。
代理通过与模拟器互动来选择一个新的视点 v t + 1 v{t+1} vt+1 ∈ W t + 1 W_{t+1} Wt+1,并提名相机航向( ∆ ψ t + 1 ∆ψ_{t+1} ∆ψt+1)和仰角( ∆ θ t + 1 ∆θ_{t+1} ∆θt+1)的调整。这些动作是确定性的。
为了确定 W t + 1 W_{t+1}