Room-to-Room论文阅读(VLN Datasets)

最新推荐文章于 2025-01-20 12:57:10 发布

巷猫和斑马

最新推荐文章于 2025-01-20 12:57:10 发布

阅读量1.5k

点赞数 18

分类专栏： VLN论文阅读文章标签：论文阅读

本文链接：https://blog.youkuaiyun.com/qq_52236549/article/details/142764721

版权

一、Motivation

以前的方法在处理机器人自然语言命令问题时，常常忽视了视觉信息处理的重要性。

使用渲染图像（而不是真实图像）来训练机器人，这样做限制了可见对象的范围，只包括渲染器可用的手工制作的模型（如在模拟器中生成的3D建模物体）。
使用标签代替图像信息

逐渐将一个复杂的开放集问题（识别和理解真实世界中的任何物体），简化为一个简单的封闭集分类问题（只识别和理解预先定义好的、有限的物体集合）
这种方法减少了机器人需要处理和识别的物体多样性，从而降低了问题的难度和实际应用的范围。但同时限制了机器人在现实世界中的适应性和能力。

二、Contribution

提出了Matterport3D Simulator，使用Matterport 3D全景RGB-D数据集进行视觉RL的软件框架
提出了Room-to-Room数据集，第一个在unseen的真实世界中进行VLN的benchmark
本文研究了在真实世界中VLN任务的难度，特别是在unseen环境中操作的难度，使用了seq-to-seq网络模型在R2R数据集上进行视线，建立了一些baseline模型

三、Matterport3D Simulator

一个新的大规模视觉RL模拟环境，可以用来进行agent的研究。它基于Matterport3D数据集构建

3.1 Matterport3D Dataset

许多RGB-D数据集是从视频序列中截取的，这些数据集通常只提供通过场景的一条或两条路径， 这使得它们不足以模拟机器人运动。
与这些数据集相比，最近发布的Matterport 3D数据集包含一组全面的全景视图。据我们所知，它也是目前最大的RGB-D研究数据集。

数据集的构成

(该部分对于使用不是很重要，直接翻译了原文)

Matterport3D数据集包含了10,800个全景视图，这些视图是由194,400个RGB-D图像构建而成的，这些图像来自90个建筑规模的场景。全景视图平均分布在每个场景的可步行楼层平面内，视图之间的平均间隔为2.25米。 每个全景视图由18个RGB-D图像组成，这些图像是从一个单一的3D位置捕获的，该位置大约与站立成人高度相当。每个图像都带有精确的6自由度（6 DoF）相机姿态标注，这些图像共同捕捉了整个球面，除了极点之外。数据集还包括全局对齐的、带有纹理的3D网格，这些网格对区域（如房间）和对象进行了类别和实例分割的标注。在视觉多样性方面，所选的Matterport场景涵盖了各种类型的建筑，包括大小和复杂性各不相同的房屋、公寓、酒店、办公室和教堂。这些建筑包含了巨大的视觉多样性，对计算机视觉提出了实际挑战。

3.2 Simulator

在构建agent模拟器时，需要我们确定agent如何进行观察（获取视觉信息）和移动（action）。

Observations

为了构建这个模拟器，我们允许一个agent在场景中虚拟地“移动”，方法是采用与全景视点相对应的姿势。

在构建数据集时采用了一定的姿势，如高度=人的站立高度，在agent观察环境时，采用相同的姿势进行观察，获取相应的视觉图像。

代理的姿势由三个参数定义：3D位置v（属于集合V），航向ψ（在0到2π之间），以及相机仰角θ（在−π/2到π/2之间）。

这里的V是与场景中全景视点相关联的3D点集合。在每一个时间步t，模拟器输出一个RGB图像观察值ot，这个观察值对应于代理的第一人称相机视角。这些图像是通过在每个视点处预先计算好的立方体贴图（cube-mapped）图像的透视投影生成的。
总结来说，这段话说明了如何通过定义代理在3D空间中的位置和方向来构建一个模拟器，以及模拟器如何生成代理视角下的图像。(本文的模拟器不支持深度信息)