
Paper
文章平均质量分 91
论文阅读笔记。
Xy-unu
道阻且长,行则将至。
做笔记是为了增援未来的自己。
展开
-
[Seg][RS] RSPrompter: Learning to prompt for remote sensing instance segmentation
借助 SA - 1B 的大量训练数据,分割一切模型(SAM)在一般化和零样本(zero - shot)能力方面展现出显著优势。然而,作为一种类别无关的实例分割方法,SAM 严重依赖于先验手动交互,包括点、框和粗略分割。此外,其在遥感图像分割任务中的性能在很大程度上仍未被探索和验证。在本文中,我们旨在开发一种基于基础 SAM 模型并结合提示语义类别信息的遥感图像自动化实例分割方法。受绘图灵感提示学习的启发,我们提出一种方法来学习适当的提示,使 SAM 能够为遥感图像生成近似可区分的分割结果。因此,我们提出了原创 2025-04-27 10:22:28 · 772 阅读 · 0 评论 -
[VL|RIS]BarLeRIa: An Efficient Tuning Framework for Referring Image Segmentation
首先指出先前引用图像分割的参数高效微调方法存在的问题,一是忽视对预训练模型偏差特征的适配,二是缺少文本输入全局先验对视觉特征的规范。 针对这些问题,介绍了本文提出的 BarLeRIa 框架,说明其利用特定组件挖掘预训练模型潜力。最后阐述在相关基准上实验的结果,即 BarLeRIa 优于先前参数高效微调方法以及部分全量微调方法,突出该框架的优势和有效性。原创 2025-04-26 18:20:20 · 1087 阅读 · 0 评论 -
[VL|Uni]Universal Segmentation at Arbitrary Granularity with Language Instruction
本文旨在实现以语言指令引导的任意语义层级通用分割。将原始多样分布的任务重新组织成统一数据格式(图像、掩码和描述三元组) 。提出 UniLSeg 全对齐框架促进模型对高级语言指令理解,并结合自动标注引擎利用未标记和弱标记数据。UniLSeg 在各种语义相关任务上性能优异。原创 2025-04-26 11:56:37 · 678 阅读 · 0 评论 -
[VL|RECS]Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentat
在本文中,我们提出了一种新的多任务协作网络 (MCN),用于联合 REC 和 RES 学习的第一次尝试。MCN 通过使用两个任务的属性相互受益来最大化 REC 和 RES 的协作学习优势。此外,我们引入了两种设计,即一致性能量最大化 (CEM) 和自适应软非定位抑制 (ASNLS),以解决这种多任务设置中的关键问题,即预测冲突。三个数据集的实验结果不仅见证了 REC 和 RES 的 SOTA 的显着性能提升,而且还证明了预测冲突得到了很好的解决。原创 2025-04-09 21:43:40 · 1028 阅读 · 0 评论 -
[VL|RIS]Towards Complex-query Referring Image Segmentation: A Novel Benchmark
鉴于大预训练模型语义理解能力提升,有必要在 RIS 中纳入复杂语言查询。作者基于 RefCOCO 和 Visual Genome 数据集构建新基准数据集 RIS - CQ ,该数据集高质量、大规模,用丰富信息查询挑战现有 RIS,推动 RIS 研究。还提出双模态图对齐模型 DUCOGA 用于 RIS - CQ 任务。原创 2025-04-03 11:12:35 · 886 阅读 · 0 评论 -
[VL|RIS]DETRIS Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation
目前的PET方法主要是为单模态优化而设计的。虽然一些开创性的研究进行了初步探索,但它们仍然停留在对齐编码器(例如 CLIP)的水平,并且缺乏对未对齐的编码器的探索。这些方法与未对齐的编码器表现出次优性能,因为它们无法在微调期间有效地对齐多模态特征。在本文中,我们介绍了 DETRIS,这是一种参数高效的调整框架,旨在通过在每一层和所有先前层之间建立密集的互连来增强低秩视觉特征传播,从而实现有效的跨模态特征交互和对错位编码器的自适应。我们还建议使用文本适配器来改进文本特征。原创 2025-03-07 09:37:11 · 922 阅读 · 0 评论 -
[VL|RIS]ReferSAM: Unleashing Segment Anything Model for Referring Image Segmentation
在参考图像分割(RIS)应用中,仅将视觉 - 语言模型的语言特征作为提示嵌入,缺乏细粒度跨模态交互,限制了其效能。本文提出 ReferSAM 框架,通过引入视觉 - 语言交互器(VLI)在图像编码阶段融合语言与视觉特征,实现细粒度对齐,且不改变预训练模型架构;同时借助视觉 - 语言提示器(VLP)生成提示嵌入,使 SAM 掩码解码器输出精准分割结果。在五个公开基准上的实验表明,ReferSAM 在经典及广义 RIS 任务上均达领先水平。原创 2025-03-02 09:58:37 · 801 阅读 · 0 评论 -
[Seg] UANet: An Uncertainty-Aware Network for Building Extraction From Remote Sensing Images
我们引入了不确定性的概念,并提出了一种新的UANet。首先,我们利用一个通用的编码器-解码器网络来产生一个通用的不确定提取图。其次,我们提出了 PIGM 来增强最高级别的特征。随后,利用URA提出了UAFM,以消除从高层到低层特征的不确定性。最后,所提出的UANet输出不确定度较低的最终提取图。通过进行充分的实验,我们验证了 UANet 的有效性。原创 2024-10-07 15:38:13 · 1210 阅读 · 0 评论 -
[VL|Ref]UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
基于参考的对象分割任务,即参考图像分割(RIS)、少镜头图像分割(FSS)、参考视频对象分割(RVOS)和视频对象分割(VOS),旨在通过利用语言或带注释的掩码作为参考来分割特定的对象。尽管在每个各自的领域都取得了重大进展,但目前的方法是针对特定任务设计和开发的,这阻碍了这些任务的多任务能力的激活。在这项工作中,我们结束当前的碎片化情况,并提出 UniRef++ 将四个基于参考的对象分割任务与单个架构统一起来。我们方法的核心是所提出的 UniFusion 模块,该模块执行多路融合以处理有关指定参考的不同任务原创 2024-10-02 21:23:07 · 1127 阅读 · 0 评论 -
[VL | RVOB] Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation
参考视频分割依赖于自然语言表达来识别和分割对象,通常强调运动线索。以前的工作将句子作为一个整体来处理,并直接在视频级别进行识别,将静态图像级线索与时间运动线索混合。然而,图像级特征不能很好地理解句子中的运动线索,静态线索对时间感知并不重要。事实上,静态线索有时可以通过掩盖运动线索来干扰时间感知。在这项工作中,我们建议将视频级引用表达式理解解耦为静态和动态感知,并特别强调增强时间理解。原创 2024-09-23 20:54:50 · 363 阅读 · 0 评论 -
[VL | RIS] ReMamber: Referring Image Segmentation with Mamba Twister
ReMaber,一种新颖的 RIS 架构,它将 Mamba 的力量与多模态 Mamba Twister 块相结合。Mamba Twister 显式建模图像-文本交互,并通过其独特的通道和空间扭曲机制融合文本和视觉特征。我们使用简单有效的架构在三个具有挑战性的基准上实现了具有竞争力的结果。原创 2024-09-12 10:00:11 · 966 阅读 · 0 评论 -
[VL | Vision Grounding] PLV:Progressive Language-Customized Visual Feature Learning for One-Stage
提出了一种语言定制的视觉特征学习机制,语言信息从一开始就引导视觉特征的提取。我们将该机制实例化为一种名为渐进式语言自定义视觉特征学习(PLV)的单阶段框架。我们提出的PLV由一个渐进语言定制视觉编码器(PLVE)和一个接地模块组成。我们通过Channel-wise Language-guided Interaction Modules (CLIM)在PLVE的每个阶段定制视觉特征和语言指导。原创 2024-09-08 21:28:35 · 916 阅读 · 0 评论 -
[VL | VOS]MUTR:A Unified Temporal Transformer for Multi-Modal Video Object Segmentation
本文提出了一种多模态统一时间转换器MUTR,用于参考视频对象分割。MUTR首次有了统一的框架,采用了der风格的转换器,能够分割文本或音频引用指定的视频对象。具体来说,我们引入了两种策略来充分探索视频和多模态信号之间的时间关系。首先,对于变换前的低级时间聚合,我们使多模态引用能够从连续视频帧中捕获多尺度视觉线索。这有效地赋予了文本或音频信号时间知识,并促进了模态之间的语义一致性。其次,对于变换后的高级时间交互,我们对不同的对象嵌入进行帧间特征通信,有助于更好地沿视频跟踪对象对应。原创 2024-09-06 20:33:34 · 966 阅读 · 0 评论 -
[VL | RIS] VLT:Vision-Language Transformer and Query Generation for Referring Segmentation
我们引入转换器和多头注意力构建了一个具有编码器-解码器注意机制的网络结构,该结构可以对给定的图像进行语言表达。此外,我们还提出了查询生成模块,该模块生成多组具有不同注意权重的查询,这些查询代表了语言表达从不同方面的多样化理解。同时,为了从这些基于视觉线索的多样化理解中找到最佳的方法,我们进一步提出了查询平衡模块,自适应地选择这些查询的输出特征,以更好地生成掩码。原创 2024-09-01 10:44:27 · 1131 阅读 · 0 评论 -
[Mutimodal Fusion | Cls]Multimodal Fusion Transformer for Remote Sensing Image Classification
一种新的用于HSI土地覆盖分类的多模态融合(MFT)网络,该网络利用了HSI之外的其他多模态数据来源。在变压器编码器中,使用其他多模态数据作为外部分类(CLS)令牌,而不是使用传统的特征融合技术,这有助于实现更好的泛化。原创 2024-08-31 09:41:40 · 1446 阅读 · 0 评论 -
[VOS]Cutie-Putting the Object Back into Video Object Segmentation
Cutie 是一个视频对象分割框架——它是 XMem 的后续工作,具有更好的一致性、鲁棒性和速度。该库包含标准视频对象分割的代码和交互式视频分割的 GUI 工具。原创 2024-08-17 10:05:28 · 1435 阅读 · 0 评论 -
[Backbone]CAS-ViT: Convolutional Additive Self-attention Vision Transformers
CAS-ViT:卷积加性自注意力视觉转换器,以实现移动应用程序的效率和性能之间的平衡。首先,我们认为令牌混合器获得全局上下文信息的能力取决于多个信息交互,例如空间和通道域。随后,我们按照这个范式构建了一个新的加性相似函数,并提出了一个有效的实现,称为卷积加性令牌混合器 (CATM)。这种简化导致计算开销显着减少。原创 2024-08-29 15:24:27 · 1277 阅读 · 0 评论 -
[Base]WTConv-Wavelet Convolutions for Large Receptive Fields
证明了利用小波变换( Wavelet Transform,WT ),实际上可以获得非常大的感受野而不受过参数化的影响,例如,对于一个k × k的感受野,所提出的方法中可训练参数的数量只与k成对数增长。所提出的WTConv层可以作为现有架构中的直接替换。原创 2024-08-20 10:56:50 · 1970 阅读 · 0 评论 -
[VL | RIS]CrossVLT : Cross-aware Early Fusion with Stage-divided Vision and Language Transformer
交叉感知早期融合与阶段划分的视觉和语言转换编码器(CrossVLT),它通过交替遍历两个转换编码器的每个阶段来嵌入跨模态特征。与以往大多数参考分割模型不同,我们的视觉和语言编码器通过划分两个编码器的阶段来共同进行交叉感知的早期融合,从而相互增强每个编码器的鲁棒性。此外,我们利用基于特征的对齐方案,利用编码器特征的全局范围进行跨模态对齐。该方案通过对编码器各阶段的中间跨模态特征进行对齐,实现了有效的跨模态融合。原创 2024-08-30 10:22:58 · 1648 阅读 · 1 评论 -
[RIS]ReLA GRES: Generalized Referring Expression Segmentation
本文主要介绍了一个新的数据集和任务——Generalized Referring Expression Segmentation (GRES),该任务将传统的Referring Expression Segmentation (RES)任务扩展到了支持多目标和无目标表达式。同时,本文还提出了一个名为ReLA的基准方法,该方法基于区域和语言的关系进行建模,能够有效地解决多目标和无目标表达式的复杂关系建模问题,并在新的GRES数据集和传统的RES数据集上取得了最新的最佳性能。原创 2024-08-29 19:57:38 · 1002 阅读 · 0 评论 -
[Seg]EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation
引入了EMCAD,一种新的高效的多尺度卷积注意力解码器,旨在优化性能和计算效率。EMCAD利用独特的多尺度深度卷积块,通过多尺度卷积显著增强特征图。EMCAD还采用了通道、空间和分组(大核)门控注意力机制,这些机制在关注显著区域的同时,非常有效地捕获了复杂的空间关系。通过使用分组卷积和深度卷积,EMCAD是非常有效的,并且具有良好的规模。原创 2024-08-20 20:54:10 · 4827 阅读 · 5 评论 -
[VG] TransVG++
我们首先提出了 TransVG,它通过 Transformer 建立多模态对应关系,并通过直接回归框坐标来定位参考区域。我们凭经验表明,复杂的融合模块可以被一个简单的 Transformer 编码器层堆栈所取代,具有更高的性能。然而,TransVG 中的核心融合 Transformer 独立于单模态编码器,因此应该在有限的视觉基础数据上进行训练,这使得它难以优化并导致次优性能。为此,我们进一步引入 TransVG++ 进行双重改进。原创 2024-08-29 11:45:28 · 1201 阅读 · 0 评论 -
[Base] Agent Attention
Agent Attention 集成 Softmax 注意力和线性注意力。可应用于 分类、分割、检测和图像生成。原创 2024-08-19 18:55:19 · 785 阅读 · 0 评论 -
[VL|RIS]ETRIS: Bridging Vision and Language Encoders
在本文中,我们对参考图像分割的高效调整问题进行了研究。我们提出了一种名为 Bridger 的新型适配器,以促进跨模态信息交换,并将特定任务信息注入预训练模型。我们还设计了用于图像分割的轻量级解码器。通过在具有挑战性的基准上进行评估,我们的方法仅需 1.61% 至 3.38% 的主干参数更新即可实现相当或更优的性能。原创 2024-08-15 17:43:43 · 1570 阅读 · 0 评论 -
[VL | RIS]CGFormer-Contrastive Grouping with Transformer for Referring Image Segmentation
现有的单阶段方法采用按像素分类的框架,这种框架试图直接在像素级别将视觉和语言相统一,因此无法捕捉到关键的对象级别信息。在本文中,我们提出了一种掩码分类框架--Contrastive Grouping with Transformer network(CGFormer),它通过基于标记的查询和分组策略明确捕捉对象级信息。具体来说,CGFormer 首先引入可学习的查询标记来表示对象,然后交替查询语言特征并将视觉特征分组到查询标记中。原创 2024-08-13 21:28:22 · 983 阅读 · 0 评论 -
[RIS]SLViT: Scale-Wise Language-Guided Vision Transformer forReferring Image Segmentation
参考图像分割旨在通过特定的语言表达将对象从图像中分割出来。主要概念是建立全局视觉-语言关系以定位对象并使用图像的细节识别边界。现有方法分别考虑视觉特征提取和跨模态融合,导致语义空间中视觉-语言对齐不足。此外,它们采用顺序结构,因此缺乏多尺度信息交互。为了解决这些限制,我们提出了一种具有两种吸引人的设计的尺度明智语言引导视觉转换器(SLViT)。原创 2024-08-09 11:33:24 · 1234 阅读 · 0 评论 -
Exchanging-based Multimodal Fusion with Transformer
视觉语言融合原创 2024-08-07 09:37:14 · 942 阅读 · 0 评论 -
[VL | RIS ]LAVT:Language-Aware Vision Transformer for Referring Image Segmentation
Swin Transformer 采用 pixel-word attention module (PWAM) 模块进行多模态融合。语言门 Language gate (LG),用于管理语言在语言路径 Language pathway (LP) 上的信息流动。拼接后的特征图做两个 conv 3x3 + Batch Norm + ReLU。PWAM:conv 1x1 + ReLU 视觉特征和多模态注意力的结果做点乘。双线性上采样插值后的特征图和前一个拼接,以此类推。语言模型中潜在的歧义。原创 2024-07-29 23:11:59 · 1040 阅读 · 0 评论