Xy-unu-优快云博客

原创 [VL|RECS]Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentat

在本文中，我们提出了一种新的多任务协作网络 (MCN)，用于联合 REC 和 RES 学习的第一次尝试。MCN 通过使用两个任务的属性相互受益来最大化 REC 和 RES 的协作学习优势。此外，我们引入了两种设计，即一致性能量最大化 (CEM) 和自适应软非定位抑制 (ASNLS)，以解决这种多任务设置中的关键问题，即预测冲突。三个数据集的实验结果不仅见证了 REC 和 RES 的 SOTA 的显着性能提升，而且还证明了预测冲突得到了很好的解决。

2025-04-09 21:43:40 1002

原创个人简历主页制作-github

创建个人学术主页。

2025-04-07 14:11:49 101

原创 [VL|RIS]Towards Complex-query Referring Image Segmentation: A Novel Benchmark

鉴于大预训练模型语义理解能力提升，有必要在 RIS 中纳入复杂语言查询。作者基于 RefCOCO 和 Visual Genome 数据集构建新基准数据集 RIS - CQ ，该数据集高质量、大规模，用丰富信息查询挑战现有 RIS，推动 RIS 研究。还提出双模态图对齐模型 DUCOGA 用于 RIS - CQ 任务。

2025-04-03 11:12:35 876

原创 [RS] SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection

SARDet-100K 是曾经创建的第一个 COCO 级大规模多类 SAR 对象检测数据集。有了这个高质量的数据集，我们进行了综合实验，并揭示了 SAR 对象检测的一个关键挑战：RGB 数据集的预训练与数据域和模型结构对 SAR 数据集进行微调之间的巨大差异。为了弥合这些差距，我们提出了一种新颖的多阶段过滤器增强 (MSFA) 预训练框架，该框架从数据输入、域转换和模型迁移的角度解决了问题。所提出的 MSFA 方法显着提高了 SAR 对象检测模型的性能，同时展示了跨不同模型的普遍性和灵活性。

2025-03-19 10:47:45 950

原创 [VL|RIS] EVF-SAM:Early Vision-Language Fusion for Text-Prompted Segment Anything Model

EVF-SAM 是一种简单而有效的参考分割方法，它利用多模态提示（即图像和文本），并包括一个预训练的视觉语言模型来生成参考提示和一个 SAM 进行分割。令人惊讶的是，我们观察到：（1）多模态提示和（2）早期融合的视觉语言模型（例如，BEIT-3）有利于提示 SAM 进行准确的参考分割。

2025-03-18 12:33:41 931

原创 [VL|RIS] CRIS: CLIP-Driven Referring Image Segmentation

本文主要介绍了一种新的基于CLIP模型的指代图像分割方法，称为CRIS。该方法通过视觉语言解码和对比学习来实现文本和像素级特征之间的对齐，以提高跨模态匹配的能力。作者在三个基准数据集上的实验证明了该方法的有效性。

2025-03-14 12:09:17 752

原创 [VL|RIS] RISAM: Referring Image Segmentation via Mutual-Aware Attention Features

提出了一种参考图像分割方法RISAM，该方法基于参数高效的微调框架利用分段任意模型(SAM)，并引入相互感知的注意机制来获得准确的参考掩码。具体来说，我们的相互感知注意机制由视觉引导注意和语言引导注意组成，它双向建模视觉和语言特征之间的关系。相应地，我们设计了 Mutual-Aware Mask 解码器，以实现与语言表达更一致的分割的额外语言指导。为此，引入了多模态查询标记来整合语言信息并同时与视觉信息交互。

2025-03-12 09:29:05 582

原创 [VL|RIS] MMM:Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

为了解决这个问题，我们提出了多模态相互注意（M3Att）和多模态相互解码器（M3Dec），以更好地融合来自两个输入模式的信息。基于 M3Dec，我们进一步提出了迭代多模态交互 (IMI)，以允许语言和视觉特征之间的连续和深度交互。此外，我们引入了语言特征重建 (LFR)，以防止语言信息在提取的特征中丢失或失真。

2025-03-09 11:58:21 733

原创 [VL|RIS]DETRIS Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation

目前的PET方法主要是为单模态优化而设计的。虽然一些开创性的研究进行了初步探索，但它们仍然停留在对齐编码器（例如 CLIP）的水平，并且缺乏对未对齐的编码器的探索。这些方法与未对齐的编码器表现出次优性能，因为它们无法在微调期间有效地对齐多模态特征。在本文中，我们介绍了 DETRIS，这是一种参数高效的调整框架，旨在通过在每一层和所有先前层之间建立密集的互连来增强低秩视觉特征传播，从而实现有效的跨模态特征交互和对错位编码器的自适应。我们还建议使用文本适配器来改进文本特征。

2025-03-07 09:37:11 885

原创 [VL|RIS]ReferSAM: Unleashing Segment Anything Model for Referring Image Segmentation

在参考图像分割（RIS）应用中，仅将视觉 - 语言模型的语言特征作为提示嵌入，缺乏细粒度跨模态交互，限制了其效能。本文提出 ReferSAM 框架，通过引入视觉 - 语言交互器（VLI）在图像编码阶段融合语言与视觉特征，实现细粒度对齐，且不改变预训练模型架构；同时借助视觉 - 语言提示器（VLP）生成提示嵌入，使 SAM 掩码解码器输出精准分割结果。在五个公开基准上的实验表明，ReferSAM 在经典及广义 RIS 任务上均达领先水平。

2025-03-02 09:58:37 764

原创 IEEE TMM 期刊投稿流程

期刊投稿流程。

2025-02-05 10:51:44 3090 17

原创 Win10+Ubuntu20.04双系统重装Ubuntu22.04单系统

双系统重装单系统教程。单ubuntu系统重装教程。你可以在 Linux 里做任何你想做的事只要你愿意为此承担后果。你拥有最高的 root 权限。

2024-12-02 12:07:51 1001

原创 LaTeX- overleaf

LaTeX 的使用。在 overleaf 的使用。

2024-11-16 10:47:58 417

原创 [Base]DIFFERENTIAL TRANSFORMER

该论文介绍了差分Transformer（Differential Transformer），一种旨在解决传统Transformer在处理上下文时容易分配过多注意力于无关内容的问题。差分Transformer通过引入差分注意力机制，计算两个独立的softmax注意力图之间的差值，以消除注意力噪声，并促进稀疏的注意力模式生成。实验结果表明，差分Transformer在语言建模和下游任务中的表现优于传统Transformer，尤其在长上下文建模、关键信息检索、减少幻觉生成和上下文学习的鲁棒性方面表现突出。

2024-11-11 11:08:15 411

原创 [Base]CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction

本文介绍了CTA-Net，这是一种用于在小规模数据集（少于100,000个样本）上改善多尺度特征提取的CNN-Transformer聚合网络。CTA-Net解决了CNN和ViT特征融合不足以及模型复杂度高的挑战。通过在ViT框架内整合CNN操作，CTA-Net利用了两种架构的优势，增强了局部特征提取和全局信息处理，提高了网络的表征能力。逆重建CNN变体（RRCV）和轻量级多尺度特征融合多头自注意力（LMF-MHSA）模块通过广泛的消融实验得到了验证。

2024-11-10 19:34:50 1227 3

原创 [Seg] UANet: An Uncertainty-Aware Network for Building Extraction From Remote Sensing Images

我们引入了不确定性的概念，并提出了一种新的UANet。首先，我们利用一个通用的编码器-解码器网络来产生一个通用的不确定提取图。其次，我们提出了 PIGM 来增强最高级别的特征。随后，利用URA提出了UAFM，以消除从高层到低层特征的不确定性。最后，所提出的UANet输出不确定度较低的最终提取图。通过进行充分的实验，我们验证了 UANet 的有效性。

2024-10-07 15:38:13 1156

原创 [VL|Ref]UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces

基于参考的对象分割任务，即参考图像分割(RIS)、少镜头图像分割(FSS)、参考视频对象分割(RVOS)和视频对象分割(VOS)，旨在通过利用语言或带注释的掩码作为参考来分割特定的对象。尽管在每个各自的领域都取得了重大进展，但目前的方法是针对特定任务设计和开发的，这阻碍了这些任务的多任务能力的激活。在这项工作中，我们结束当前的碎片化情况，并提出 UniRef++ 将四个基于参考的对象分割任务与单个架构统一起来。我们方法的核心是所提出的 UniFusion 模块，该模块执行多路融合以处理有关指定参考的不同任务

2024-10-02 21:23:07 1117

原创 [VL | RVOB] Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

参考视频分割依赖于自然语言表达来识别和分割对象，通常强调运动线索。以前的工作将句子作为一个整体来处理，并直接在视频级别进行识别，将静态图像级线索与时间运动线索混合。然而，图像级特征不能很好地理解句子中的运动线索，静态线索对时间感知并不重要。事实上，静态线索有时可以通过掩盖运动线索来干扰时间感知。在这项工作中，我们建议将视频级引用表达式理解解耦为静态和动态感知，并特别强调增强时间理解。

2024-09-23 20:54:50 344 1

原创 [VL | RIS] ReMamber: Referring Image Segmentation with Mamba Twister

ReMaber，一种新颖的 RIS 架构，它将 Mamba 的力量与多模态 Mamba Twister 块相结合。Mamba Twister 显式建模图像-文本交互，并通过其独特的通道和空间扭曲机制融合文本和视觉特征。我们使用简单有效的架构在三个具有挑战性的基准上实现了具有竞争力的结果。

2024-09-12 10:00:11 910

原创 [VL | Vision Grounding] PLV:Progressive Language-Customized Visual Feature Learning for One-Stage

提出了一种语言定制的视觉特征学习机制，语言信息从一开始就引导视觉特征的提取。我们将该机制实例化为一种名为渐进式语言自定义视觉特征学习(PLV)的单阶段框架。我们提出的PLV由一个渐进语言定制视觉编码器(PLVE)和一个接地模块组成。我们通过Channel-wise Language-guided Interaction Modules (CLIM)在PLVE的每个阶段定制视觉特征和语言指导。

2024-09-08 21:28:35 902

原创 [VL | VOS]MUTR:A Unified Temporal Transformer for Multi-Modal Video Object Segmentation

本文提出了一种多模态统一时间转换器MUTR，用于参考视频对象分割。MUTR首次有了统一的框架，采用了der风格的转换器，能够分割文本或音频引用指定的视频对象。具体来说，我们引入了两种策略来充分探索视频和多模态信号之间的时间关系。首先，对于变换前的低级时间聚合，我们使多模态引用能够从连续视频帧中捕获多尺度视觉线索。这有效地赋予了文本或音频信号时间知识，并促进了模态之间的语义一致性。其次，对于变换后的高级时间交互，我们对不同的对象嵌入进行帧间特征通信，有助于更好地沿视频跟踪对象对应。

2024-09-06 20:33:34 951

原创 [VL | RIS]ReSTR: Convolution-free Referring Image Segmentation Using Transformers

由于它通过变压器编码器提取两种模式的特征，因此它可以捕获每种模式中实体之间的长期依赖关系。此外，ReSTR通过一个自注意编码器融合了两种模式的特征，从而在融合过程中实现了两种模式之间灵活和自适应的交互。将融合后的特征输入到分割模块中，分割模块根据图像和语言表达进行自适应工作。对ReSTR进行了评估，并将其与之前所有公共基准测试的工作进行了比较，其中它优于所有现有模型。

2024-09-04 19:36:08 1087

原创 [Object Detection]DETR - DeFormable - DINO

目标检测 DETR、DeFormable 和 DINO 的论文速读。

2024-09-03 09:45:06 997

原创 [VL | RIS] VLT:Vision-Language Transformer and Query Generation for Referring Segmentation

我们引入转换器和多头注意力构建了一个具有编码器-解码器注意机制的网络结构，该结构可以对给定的图像进行语言表达。此外，我们还提出了查询生成模块，该模块生成多组具有不同注意权重的查询，这些查询代表了语言表达从不同方面的多样化理解。同时，为了从这些基于视觉线索的多样化理解中找到最佳的方法，我们进一步提出了查询平衡模块，自适应地选择这些查询的输出特征，以更好地生成掩码。

2024-09-01 10:44:27 1107

原创 [Mutimodal Fusion | Cls]Multimodal Fusion Transformer for Remote Sensing Image Classification

一种新的用于HSI土地覆盖分类的多模态融合(MFT)网络，该网络利用了HSI之外的其他多模态数据来源。在变压器编码器中，使用其他多模态数据作为外部分类(CLS)令牌，而不是使用传统的特征融合技术，这有助于实现更好的泛化。

2024-08-31 09:41:40 1398

原创 [VL | RIS]CrossVLT : Cross-aware Early Fusion with Stage-divided Vision and Language Transformer

交叉感知早期融合与阶段划分的视觉和语言转换编码器(CrossVLT)，它通过交替遍历两个转换编码器的每个阶段来嵌入跨模态特征。与以往大多数参考分割模型不同，我们的视觉和语言编码器通过划分两个编码器的阶段来共同进行交叉感知的早期融合，从而相互增强每个编码器的鲁棒性。此外，我们利用基于特征的对齐方案，利用编码器特征的全局范围进行跨模态对齐。该方案通过对编码器各阶段的中间跨模态特征进行对齐，实现了有效的跨模态融合。

2024-08-30 10:22:58 1621 2

原创 [RIS]GRES: Generalized Referring Expression Segmentation

本文主要介绍了一个新的数据集和任务——Generalized Referring Expression Segmentation (GRES)，该任务将传统的Referring Expression Segmentation (RES)任务扩展到了支持多目标和无目标表达式。同时，本文还提出了一个名为ReLA的基准方法，该方法基于区域和语言的关系进行建模，能够有效地解决多目标和无目标表达式的复杂关系建模问题，并在新的GRES数据集和传统的RES数据集上取得了最新的最佳性能。

2024-08-29 19:57:38 968

原创 [Backbone]CAS-ViT: Convolutional Additive Self-attention Vision Transformers

CAS-ViT：卷积加性自注意力视觉转换器，以实现移动应用程序的效率和性能之间的平衡。首先，我们认为令牌混合器获得全局上下文信息的能力取决于多个信息交互，例如空间和通道域。随后，我们按照这个范式构建了一个新的加性相似函数，并提出了一个有效的实现，称为卷积加性令牌混合器 (CATM)。这种简化导致计算开销显着减少。

2024-08-29 15:24:27 1250

原创 [VG] TransVG++

我们首先提出了 TransVG，它通过 Transformer 建立多模态对应关系，并通过直接回归框坐标来定位参考区域。我们凭经验表明，复杂的融合模块可以被一个简单的 Transformer 编码器层堆栈所取代，具有更高的性能。然而，TransVG 中的核心融合 Transformer 独立于单模态编码器，因此应该在有限的视觉基础数据上进行训练，这使得它难以优化并导致次优性能。为此，我们进一步引入 TransVG++ 进行双重改进。

2024-08-29 11:45:28 1177

原创 [Seg]EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation

引入了EMCAD，一种新的高效的多尺度卷积注意力解码器，旨在优化性能和计算效率。EMCAD利用独特的多尺度深度卷积块，通过多尺度卷积显著增强特征图。EMCAD还采用了通道、空间和分组(大核)门控注意力机制，这些机制在关注显著区域的同时，非常有效地捕获了复杂的空间关系。通过使用分组卷积和深度卷积，EMCAD是非常有效的，并且具有良好的规模。

2024-08-20 20:54:10 4509 6

原创 [Base]WTConv-Wavelet Convolutions for Large Receptive Fields

证明了利用小波变换( Wavelet Transform，WT )，实际上可以获得非常大的感受野而不受过参数化的影响，例如，对于一个k × k的感受野，所提出的方法中可训练参数的数量只与k成对数增长。所提出的WTConv层可以作为现有架构中的直接替换。

2024-08-20 10:56:50 1850

原创 [Base] Agent Attention

Agent Attention 集成 Softmax 注意力和线性注意力。可应用于分类、分割、检测和图像生成。

2024-08-19 18:55:19 764

原创 [VOS]Cutie-Putting the Object Back into Video Object Segmentation

Cutie 是一个视频对象分割框架——它是 XMem 的后续工作，具有更好的一致性、鲁棒性和速度。该库包含标准视频对象分割的代码和交互式视频分割的 GUI 工具。

2024-08-17 10:05:28 1338

原创 [VL|RIS]ETRIS: Bridging Vision and Language Encoders

在本文中，我们对参考图像分割的高效调整问题进行了研究。我们提出了一种名为 Bridger 的新型适配器，以促进跨模态信息交换，并将特定任务信息注入预训练模型。我们还设计了用于图像分割的轻量级解码器。通过在具有挑战性的基准上进行评估，我们的方法仅需 1.61% 至 3.38% 的主干参数更新即可实现相当或更优的性能。

2024-08-15 17:43:43 1527

原创 [VL | RIS]CGFormer-Contrastive Grouping with Transformer for Referring Image Segmentation

现有的单阶段方法采用按像素分类的框架，这种框架试图直接在像素级别将视觉和语言相统一，因此无法捕捉到关键的对象级别信息。在本文中，我们提出了一种掩码分类框架--Contrastive Grouping with Transformer network（CGFormer），它通过基于标记的查询和分组策略明确捕捉对象级信息。具体来说，CGFormer 首先引入可学习的查询标记来表示对象，然后交替查询语言特征并将视觉特征分组到查询标记中。

2024-08-13 21:28:22 950

原创 [RIS]SLViT: Scale-Wise Language-Guided Vision Transformer forReferring Image Segmentation

参考图像分割旨在通过特定的语言表达将对象从图像中分割出来。主要概念是建立全局视觉-语言关系以定位对象并使用图像的细节识别边界。现有方法分别考虑视觉特征提取和跨模态融合，导致语义空间中视觉-语言对齐不足。此外，它们采用顺序结构，因此缺乏多尺度信息交互。为了解决这些限制，我们提出了一种具有两种吸引人的设计的尺度明智语言引导视觉转换器（SLViT）。

2024-08-09 11:33:24 1211

原创 Exchanging-based Multimodal Fusion with Transformer

视觉语言融合

2024-08-07 09:37:14 926

原创 [VL | RIS ]LAVT:Language-Aware Vision Transformer for Referring Image Segmentation

Swin Transformer 采用 pixel-word attention module (PWAM) 模块进行多模态融合。语言门 Language gate (LG)，用于管理语言在语言路径 Language pathway (LP) 上的信息流动。拼接后的特征图做两个 conv 3x3 + Batch Norm + ReLU。PWAM：conv 1x1 + ReLU 视觉特征和多模态注意力的结果做点乘。双线性上采样插值后的特征图和前一个拼接，以此类推。语言模型中潜在的歧义。

2024-07-29 23:11:59 1009

吴恩达深度学习课程作业整理

空空如也