视觉语言导航
文章平均质量分 92
目前已存在的视觉语言导航方法
mubei-123
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于多模态语义对齐的视觉语言导航
本工作的主要内容:(1)提出一种基于多模态语义对其的跨模态融合方法,显式地融合了指令中的路标信息和场景中的物体信息;(2)设计了一种实体感知的状态更新机制,以帮助智能体细粒度地建立指令和场景的关联,从而更精确地进行导航决策;(3)提出一种时序一致性损失函数,使得智能体对文本指令特征和指令实体特征关注时序一致;(4)提出一种语义对比损失函数,使得视觉场景信息和场景物体信息投影到相同的特征空间中,增强模型对场景语义的理解。原创 2025-04-22 22:47:11 · 1532 阅读 · 0 评论 -
基于模态关系理解的视觉语言导航模型
本工作的主要贡献:(1)针对文本和视觉这两个模态对齐困难的问题,提出一种基于对比学习的辅助学习任务,充分挖掘指令和语义地图之间的对应关系,使两种模态相互促进,从而增强彼此特征的表征能力;(2)针对视觉内容(语义地图)存在冗余信息和噪声干扰的问题,提出一种指令引导的语义地图感知模块,引导模型更关注于语义地图中与指令相关的关键区域,减少冗余或无关信息带来的干扰。原创 2025-04-19 11:50:03 · 1125 阅读 · 0 评论 -
基于语义拓扑度量表示的LLM推理的无人机视觉语言导航模型
本文的主要贡献:(1)提出第一个基于LLM的端到端的无人机视觉语言导航框架,不需要训练;(2)提出语义拓扑度量表示STMR,这是一种包含拓扑、语义和度量信息的独特矩阵表示,可以增强LLM在室外环境中的空间感知推理能力;(3) 为未来的零样本无人机VLN工作建立了强有力的基线。原创 2025-02-23 17:00:47 · 1410 阅读 · 0 评论 -
基于语义显示映射和隐式记忆的迭代视觉语言导航
本工作的主要贡献如下:扩展高性能Transfrmer VLN代理的隐式记忆对于IVLN来说是不够的,但构建映射的代理可以从环境持久性中受益。具体来说:(1)对于离散模型,代理在图边上移动,观察清晰、框架良好的图像,提出一种最先进的Transformer代理,在解释指令时基于路径历史学习隐式记忆;(2)对于连续模型,代理在观察从离散全景图像重建的3D环境的噪声图像的同时,预测动作,提出了一种构建和解释显式语义图的代理。原创 2025-03-04 22:44:12 · 1010 阅读 · 0 评论 -
基于自监督三维语义表示学习的视觉语言导航
本工作的主要贡献:(1)提出了一种新的学习和融合框架,为VLN任务引入了三维语义表示;(2)设计了一个区域查询前置学习任务,以自监督学习的方式帮助从未标记的三维语义重建中学习三维语义表示。原创 2025-03-06 16:18:38 · 1139 阅读 · 0 评论 -
改进的AVND:基于目标接地图形感知Transformer的无人机视觉语言模型
本文的主要贡献:(1)提出一种图形感知Transformer(GAT),利用图形注意力机制将对话文本与结构化历史观察相关联,为行动规划提供更全面的时空信息;(2)细粒度视觉基础任务。此任务可以通过强制代理去预测所引用地标的精确边界框(类似于目标检测),来提高代理对地标的感知;(3)提出一种基于LLM的数据增广器,对对话框文本和观察结果进行各种数据增广合成——更多指令,图像模糊、随机噪声、像素丢失。原创 2025-02-21 16:58:11 · 1022 阅读 · 0 评论 -
基于全局拓扑图和双尺度图Transformer的视觉语言导航
本工作的主要贡献有:(1)实时构建拓扑图,以便在全球行动空间中进行高效探索;(2)使用图Transformer对拓扑图进行编码,并学习与指令的跨模态关系,以便动作预测可以依赖于远程导航记忆。原创 2025-03-06 23:13:41 · 1014 阅读 · 0 评论 -
基于跨模态地图学习的视觉语言导航
本工作的主要贡献:(1)提出了一种用于VLN任务的新系统,将地图作为显式的中间表示进行学习;(2)预测语义图:在RGB-D图像和指令上应用跨模态注意力来学习在代理的视野之外产生幻觉信息,实现指令上的语义接地;(3)预测路径:在预测的语义图和指令上应用跨模态注意力来学习预测路径,实现指令的空间接地。原创 2025-03-08 18:13:14 · 985 阅读 · 0 评论 -
CityNav:基于地理信息的视觉语言导航模型
此工作的主要贡献:(1)开发了一种新型的基于网络的3D飞行模拟器,该模拟器在浏览器中运行,并与MTurk集成,以收集城市规模的大规模人类辅助生成的飞行轨迹;(2)收集了一个新颖的无人机视觉语言导航数据集CityNav,包含32637种语言目标描述和人类演示,利用真实城市及其地理信息的3D扫描;(3)提供了一个基线模型,其中包括一个表示地理信息的内部二维空间地图。原创 2025-02-24 22:09:45 · 1266 阅读 · 0 评论 -
基于融合跨模态特征的视觉对话导航模型
本文的主要贡献:(1)用不同类型的高级语义特征替换了只使用低级视觉特征;(2)研究了三种高级语义特征:ImageNet分类概率、检测到的对象区域和语义分割结果。原创 2025-02-26 11:44:40 · 1387 阅读 · 0 评论 -
GeoText-1652:基于空间关系匹配的无人机视觉语言导航模型
此工作的主要贡献:(1)引入了一种新的图像-文本-预测框基准数据集GeoText-1652,通过创新的基于人机交互的注释过程,在空间位置与其相应的文本注释之间建立精确的关联; (2)提出了一种新的空间感知方法,该方法利用细粒度空间关联来执行区域级空间关系匹配。与独立边界框回归不同,此方法进一步引入了无人机图像中的相对位置和周围位置的文本描述,以实现精确定位。原创 2025-02-17 20:33:43 · 1387 阅读 · 0 评论 -
基于分层强化学习的内在子目标生成视觉语言导航模型
本工作的主要贡献:(1)提出DISH方法,将复杂的导航任务被分解为潜在的内在子目标,并通过层次结构逐步解决;(2)提出了一种内在的子目标驱动的注意力机制。worker可以专注于子目标相关的指令和视觉观察,以便在较小的状态空间中进行动作预测;(3)设计了一种新的HAD,将历史信息纳入子目标判别中,并为worker提供内在奖励,以缓解奖励稀疏性。原创 2025-03-29 12:19:00 · 1161 阅读 · 0 评论 -
基于双语义感知递归全局自适应网络的视觉语言导航
本工作的主要贡献:(1)提出了一种双重语义增强结构,分别增强视觉和语言语义表征;(2)使用显式和隐式记忆传输通道来增强模型自适应记忆和推断导航状态的能力。原创 2025-03-03 17:24:04 · 1401 阅读 · 0 评论 -
DroneVLN:基于条件Transformer和LLM指令重述器的无人机视觉语言导航模型
此工作的主要贡献:(1)提出了一种新的语言增强跨模态模型,该模型具有一个条件Transformer(VLCT),可以有效地整合多模态特征,即文本指令和视觉上下文; (2)为了提高语言表征能力,语言编码器使用了预训练的SentenceBERT(SBERT); (3)引入基于预训练LLM的中间组件(LLMIR)来重新表述用户的指令,对LLM微调以适应此任务。原创 2025-02-16 21:52:02 · 1320 阅读 · 0 评论 -
AerialVLN:基于门控循环单元(GRU)和跨模态注意力的无人机视觉语言导航模型
此工作的主要贡献:(1)提出一种无人机视觉语言导航数据集,收集25个不同的城市级环境,涵盖市中心、工厂、公园和村庄等各种场景,包括870多种不同类型的对象,总共8446条飞行路径,每条路径与注释中的3条指令对齐,子路径与子指令对齐,每条指令中最多有83个单词,涉及4470个词汇; (2)提出一种起始基线模型,该模型基于门控循环单元(GRU)和跨模态注意力CMA。原创 2025-02-18 21:20:06 · 1346 阅读 · 0 评论 -
AVDN:基于人类注意力辅助Transformer的无人机视觉语言导航模型
本文的主要贡献:(1)为无人机视觉和对话导航创建了一个新的数据集和模拟器。该数据集包括超过3K个带有人机对话的空中导航轨迹;(2)引入了ANDH和ANDH Full两种任务;(3)提出注意力辅助Transformer(HAA-Transformer),除了预测航路点导航动作,它还学习预测人类追随者沿导航轨迹的注意力。原创 2025-02-19 21:40:31 · 1493 阅读 · 0 评论 -
ETPNav:基于演进拓扑规划的连续环境视觉语言导航模型
本工作的主要贡献:(1)提出了一种新的基于拓扑图的VLN-CE鲁棒导航规划方法。它可以有效地抽象连续环境,并促进代理的长期目标规划;(2)通过综合实验研究了构建拓扑图的基本设计选择,证明了简洁的深度设计是航路点预测的最佳选择;(3)提出了一种有效的试错控制器来解决避障问题。原创 2025-04-08 23:40:35 · 1022 阅读 · 0 评论
分享