- 博客(18)
- 收藏
- 关注
原创 ETPNav:基于演进拓扑规划的连续环境视觉语言导航模型
本工作的主要贡献:(1)提出了一种新的基于拓扑图的VLN-CE鲁棒导航规划方法。它可以有效地抽象连续环境,并促进代理的长期目标规划;(2)通过综合实验研究了构建拓扑图的基本设计选择,证明了简洁的深度设计是航路点预测的最佳选择;(3)提出了一种有效的试错控制器来解决避障问题。
2025-04-08 23:40:35
803
原创 基于分层强化学习的内在子目标生成视觉语言导航模型
本工作的主要贡献:(1)提出DISH方法,将复杂的导航任务被分解为潜在的内在子目标,并通过层次结构逐步解决;(2)提出了一种内在的子目标驱动的注意力机制。worker可以专注于子目标相关的指令和视觉观察,以便在较小的状态空间中进行动作预测;(3)设计了一种新的HAD,将历史信息纳入子目标判别中,并为worker提供内在奖励,以缓解奖励稀疏性。
2025-03-29 12:19:00
926
原创 基于跨模态地图学习的视觉语言导航
本工作的主要贡献:(1)提出了一种用于VLN任务的新系统,将地图作为显式的中间表示进行学习;(2)预测语义图:在RGB-D图像和指令上应用跨模态注意力来学习在代理的视野之外产生幻觉信息,实现指令上的语义接地;(3)预测路径:在预测的语义图和指令上应用跨模态注意力来学习预测路径,实现指令的空间接地。
2025-03-08 18:13:14
842
原创 基于全局拓扑图和双尺度图Transformer的视觉语言导航
本工作的主要贡献有:(1)实时构建拓扑图,以便在全球行动空间中进行高效探索;(2)使用图Transformer对拓扑图进行编码,并学习与指令的跨模态关系,以便动作预测可以依赖于远程导航记忆。
2025-03-06 23:13:41
843
原创 基于自监督三维语义表示学习的视觉语言导航
本工作的主要贡献:(1)提出了一种新的学习和融合框架,为VLN任务引入了三维语义表示;(2)设计了一个区域查询前置学习任务,以自监督学习的方式帮助从未标记的三维语义重建中学习三维语义表示。
2025-03-06 16:18:38
985
原创 基于语义显示映射和隐式记忆的迭代视觉语言导航
本工作的主要贡献如下:扩展高性能Transfrmer VLN代理的隐式记忆对于IVLN来说是不够的,但构建映射的代理可以从环境持久性中受益。具体来说:(1)对于离散模型,代理在图边上移动,观察清晰、框架良好的图像,提出一种最先进的Transformer代理,在解释指令时基于路径历史学习隐式记忆;(2)对于连续模型,代理在观察从离散全景图像重建的3D环境的噪声图像的同时,预测动作,提出了一种构建和解释显式语义图的代理。
2025-03-04 22:44:12
874
原创 基于双语义感知递归全局自适应网络的视觉语言导航
本工作的主要贡献:(1)提出了一种双重语义增强结构,分别增强视觉和语言语义表征;(2)使用显式和隐式记忆传输通道来增强模型自适应记忆和推断导航状态的能力。
2025-03-03 17:24:04
1207
原创 基于融合跨模态特征的视觉对话导航模型
本文的主要贡献:(1)用不同类型的高级语义特征替换了只使用低级视觉特征;(2)研究了三种高级语义特征:ImageNet分类概率、检测到的对象区域和语义分割结果。
2025-02-26 11:44:40
1162
原创 CityNav:基于地理信息的视觉语言导航模型
此工作的主要贡献:(1)开发了一种新型的基于网络的3D飞行模拟器,该模拟器在浏览器中运行,并与MTurk集成,以收集城市规模的大规模人类辅助生成的飞行轨迹;(2)收集了一个新颖的无人机视觉语言导航数据集CityNav,包含32637种语言目标描述和人类演示,利用真实城市及其地理信息的3D扫描;(3)提供了一个基线模型,其中包括一个表示地理信息的内部二维空间地图。
2025-02-24 22:09:45
892
原创 基于语义拓扑度量表示的LLM推理的无人机视觉语言导航模型
本文的主要贡献:(1)提出第一个基于LLM的端到端的无人机视觉语言导航框架,不需要训练;(2)提出语义拓扑度量表示STMR,这是一种包含拓扑、语义和度量信息的独特矩阵表示,可以增强LLM在室外环境中的空间感知推理能力;(3) 为未来的零样本无人机VLN工作建立了强有力的基线。
2025-02-23 17:00:47
1153
原创 改进的AVND:基于目标接地图形感知Transformer的无人机视觉语言模型
本文的主要贡献:(1)提出一种图形感知Transformer(GAT),利用图形注意力机制将对话文本与结构化历史观察相关联,为行动规划提供更全面的时空信息;(2)细粒度视觉基础任务。此任务可以通过强制代理去预测所引用地标的精确边界框(类似于目标检测),来提高代理对地标的感知;(3)提出一种基于LLM的数据增广器,对对话框文本和观察结果进行各种数据增广合成——更多指令,图像模糊、随机噪声、像素丢失。
2025-02-21 16:58:11
886
原创 AVDN:基于人类注意力辅助Transformer的无人机视觉语言导航模型
本文的主要贡献:(1)为无人机视觉和对话导航创建了一个新的数据集和模拟器。该数据集包括超过3K个带有人机对话的空中导航轨迹;(2)引入了ANDH和ANDH Full两种任务;(3)提出注意力辅助Transformer(HAA-Transformer),除了预测航路点导航动作,它还学习预测人类追随者沿导航轨迹的注意力。
2025-02-19 21:40:31
1140
原创 AerialVLN:基于门控循环单元(GRU)和跨模态注意力的无人机视觉语言导航模型
此工作的主要贡献:(1)提出一种无人机视觉语言导航数据集,收集25个不同的城市级环境,涵盖市中心、工厂、公园和村庄等各种场景,包括870多种不同类型的对象,总共8446条飞行路径,每条路径与注释中的3条指令对齐,子路径与子指令对齐,每条指令中最多有83个单词,涉及4470个词汇; (2)提出一种起始基线模型,该模型基于门控循环单元(GRU)和跨模态注意力CMA。
2025-02-18 21:20:06
974
原创 GeoText-1652:基于空间关系匹配的无人机视觉语言导航模型
此工作的主要贡献:(1)引入了一种新的图像-文本-预测框基准数据集GeoText-1652,通过创新的基于人机交互的注释过程,在空间位置与其相应的文本注释之间建立精确的关联; (2)提出了一种新的空间感知方法,该方法利用细粒度空间关联来执行区域级空间关系匹配。与独立边界框回归不同,此方法进一步引入了无人机图像中的相对位置和周围位置的文本描述,以实现精确定位。
2025-02-17 20:33:43
1117
原创 DroneVLN:基于条件Transformer和LLM指令重述器的无人机视觉语言导航模型
此工作的主要贡献:(1)提出了一种新的语言增强跨模态模型,该模型具有一个条件Transformer(VLCT),可以有效地整合多模态特征,即文本指令和视觉上下文; (2)为了提高语言表征能力,语言编码器使用了预训练的SentenceBERT(SBERT); (3)引入基于预训练LLM的中间组件(LLMIR)来重新表述用户的指令,对LLM微调以适应此任务。
2025-02-16 21:52:02
1131
原创 Swin Transformer(Swin-T)原理详解 + 代码注释
本文介绍了一种名为 Swin Transformer 的新视觉 Transformer,由 Microsoft 研究团队于2021年提出,旨在解决传统 Transformer 模型在计算机视觉任务中的高计算复杂度问题。它基于ViT模型的思想,创新性的引入了分层架构和滑动窗口机制,让模型能够学习到跨窗口的信息,广泛应用于图像分类、目标检测、分割等视觉任务,已成为新一代的CV通用骨干。
2025-02-10 20:16:42
1606
原创 Vision Transformer(ViT)原理详解 + 代码注释
ViT(Vision Transformer)是Google在2020年提出的直接将Transformer应用在图像分类的模型,它证明了Transformer在视觉任务中的潜力。ViT通过将图像分割成若干固定大小的图块,并将每个图块视为一个序列输入到Transformer中进行处理。与传统的卷积神经网络不同,ViT摆脱了卷积操作,完全依赖自注意力机制来捕捉图像中的长距离依赖关系。
2025-01-14 16:08:05
214
原创 Transformer原理讲解
Transformer是谷歌2017年发表的论文《Attention Is All You Need》中提出的,用于NLP的各项任务,其引入了自注意力机制(self-attention mechanism),具有长距离依赖关系建模、并行计算能力和通用性能优点,已广泛应用于系列数据的处理。在本文中,我们将从Transformer的整体框架、Encoder结构和输入输出、Decoder的结构和输入输出等方面,详细讲解Transformer的原理。
2025-01-09 17:31:43
1280
原论文-DroneVLN:基于条件Transformer和LLM指令重述器的无人机视觉语言导航模型
2025-02-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人