Multimodal——Paper精读笔记：Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

最新推荐文章于 2025-04-16 18:24:00 发布

原创

最新推荐文章于 2025-04-16 18:24:00 发布 · 746 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #迁移学习 #人工智能

本文研究如何使用Web上的图像-文本对改进视觉-语言导航系统。受BERT启发，作者通过三个阶段的预训练和微调，使模型在有限的特定场景数据上表现良好。实验在Matterport3D数据集的Room-2-Room任务上展示了优越的性能。

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

关键字：BERT、迁移学习、预训练

文章简介

这篇文章中了今年ECCV（2020），还是spotlight，挺牛X的了。虽然还是吃的transformer的老本（自从出现了transformer，多模态领域就像找到了突破点一样，各种使用transformer，因此也是在各大会议发了不少文章，去年和今年几乎所有的多模态文章都是基于transformer的），但是作者也是找到了一个很好的应用领域，同时也有该应用场景下需要特殊处理的方法，所以仍然是一篇很不错的文章。对于transformer，我会在之后单独写一篇文章聊一聊，毕竟是大热门啊。

应用场景

现在用transformer写一篇文章是很容易中比较好的会议的，最关键的地方在于找到一个适合的场景。简单介绍一下这篇文章的场景。在基于语言导航的系统中，系统需要将文字描述的物体和现实中的视觉物体联系起来，这是需要大量的数据来训练模型才能达到的，但是往往很难收集到相同场景的大量数据集。网络上有很多相关的数据，作者想借鉴BERT模型中预训练的方法，用网络上大量相关的数据预训练模型，然后用少量的运用场景下的数据集微调模型参数，从而使模型达到好的效果。

假设前提

在路径寻找的问题中，有不同的场景假设，在本文中，作者是假设机器人为上帝视角，即机器人的存储空间里面包含了房间里面每一个位置的3D全景图，也就是说机器人是知道房间里面所有的路径的，在这种假设之下，模型需要做的工作就是在众多的路径之中，找到和导航命令最符合的路径，如下图所示。

最低0.47元/天解锁文章