- 博客(54)
- 收藏
- 关注
原创 [VL|VG]LQVG:Language Query-Based Transformer With Multiscale Cross-Modal Alignment
本文提出了一种新的基于语言查询的多模态变换器框架,用于 RS 图像的视觉定位。该框架设计了一个 MSCMA 模块,用于增强视觉特征和文本特征之间的语义相关性,并生成精细化的多尺度视觉特征和句子特征。在多模态 DETR 中,将句子特征作为语言查询,直接从多尺度视觉特征中检索和聚合所引用的对象信息,并生成对象嵌入以进行最终的定位预测。此外,基于非常高分辨率的 RS 图像构建了一个新的 RSVG 数据集,并使用新的注释协议来评估现有和我们提出的 RSVG 方法的性能。
2025-05-15 11:10:46
628
原创 [Survey]Remote Sensing Temporal Vision-Language Models: A Comprehensive Survey
遥感时间视觉 - 语言模型(RS - TVLMs)融合计算机视觉和自然语言处理,增强了分析遥感时间图像能力。文章综述其进展,包括基本概念、主要方法、数据集、评估指标等,梳理研究路径和未来方向。尽管取得成果,但仍有挑战,如构建大规模数据集、设计模型等,需进一步研究解决。
2025-05-06 18:03:48
974
原创 [Seg|ReasonIS]Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
提出了 Seg-Zero,这是一个将 CoT 推理过程集成到分割任务中的新颖框架。我们设计了一个复杂的奖励机制,结合了格式和准确性约束,以指导优化方向。通过仅使用 RL 进行训练,Seg-Zero 在不依赖任何监督推理数据的情况下出现了推理能力。介绍了 SFT 和 RL 之间的详细比较,以及 reason chain 的介绍。此外,我们还就 RL 的设计和奖励函数提供了有见地的观点。
2025-05-04 22:19:19
1005
原创 [Survey]SAM2 for Image and Video Segmentation: A Comprehensive Survey
本文综述 SAM2 进展与挑战,其相较之前模型有显著提升,在图像分割任务表现良好。但在医学影像、自动驾驶等特定领域,需优化以充分发挥能力。研究聚焦 SAM2 在医学图像分割应用,强调其处理时间一致性挑战及技术局限,同时给出未来发展方向。本文为研究人员提供参考,推动计算机视觉领域对 SAM2 的优化与应用。
2025-05-03 15:47:52
684
原创 [RIS|Medical]Cross-Modal Conditioned Reconstruction for Language-Guided Medical Image Segmentation
当前用于语言引导的医学图像分割方法所产生的结果与语言所传达的语义不一致,有时甚至偏差显著。因此,提出了一种用于语言引导医学图像分割的跨模态条件重建方法(RecLMIS)。该方法明确地将语言和视觉信息作为条件因素纳入,以促进对比学习和跨模态重建,进而有助于实现细粒度的视觉 - 语言对齐。在具有挑战性的医学语义分割基准测试上进行的实验证明了 RecLMIS 的卓越准确性。RecLMIS 在达到先进技术水平的同时,显著减少了参数数量和计算负载。
2025-05-02 16:39:27
603
2
原创 [Seg|OVSS]FreeDA:Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototy
提出了Freeda,一种无训练的无监督开放词汇切分方法。方法利用视觉原型和文本关键字通过扩散增强生成来离线提取,并利用推理时的局部全局相似性。在实验上,在五个不同的数据集上获得了最先进的结果。
2025-05-01 16:02:25
753
原创 [Survey] Image Segmentation in Foundation Model Era: A Survey
回顾了基础模型时代图像分割的最新进展。介绍了关键概念,并研究了现有模型(如CLIP, Diffusion Models, SAM和DINO/DINOv2)中固有的分割知识。此外,总结了300多个图像分割模型,用于处理通用和提示的图像分割任务。最后,强调了需要填补的现有研究空白,并阐明了未来研究的有希望的途径。
2025-04-30 17:19:28
1067
原创 [Survey] Transformer-Based Visual Segmentation: A Survey
- 一部分针对基于 DETR 类元架构的主流任务,另一部分针对根据任务的相关方向。- 进一步重新评估了几项关于图像语义分割和全景分割数据集的代表性工作。- 包括基于查询的检测转换器,因为分割和检测任务都是通过对象查询统一的。
2025-04-28 11:36:22
1117
原创 [Seg][RS] RSPrompter: Learning to prompt for remote sensing instance segmentation
借助 SA - 1B 的大量训练数据,分割一切模型(SAM)在一般化和零样本(zero - shot)能力方面展现出显著优势。然而,作为一种类别无关的实例分割方法,SAM 严重依赖于先验手动交互,包括点、框和粗略分割。此外,其在遥感图像分割任务中的性能在很大程度上仍未被探索和验证。在本文中,我们旨在开发一种基于基础 SAM 模型并结合提示语义类别信息的遥感图像自动化实例分割方法。受绘图灵感提示学习的启发,我们提出一种方法来学习适当的提示,使 SAM 能够为遥感图像生成近似可区分的分割结果。因此,我们提出了
2025-04-27 10:22:28
779
原创 [VL|RIS]BarLeRIa: An Efficient Tuning Framework for Referring Image Segmentation
首先指出先前引用图像分割的参数高效微调方法存在的问题,一是忽视对预训练模型偏差特征的适配,二是缺少文本输入全局先验对视觉特征的规范。 针对这些问题,介绍了本文提出的 BarLeRIa 框架,说明其利用特定组件挖掘预训练模型潜力。最后阐述在相关基准上实验的结果,即 BarLeRIa 优于先前参数高效微调方法以及部分全量微调方法,突出该框架的优势和有效性。
2025-04-26 18:20:20
1096
原创 [VL|Uni]Universal Segmentation at Arbitrary Granularity with Language Instruction
本文旨在实现以语言指令引导的任意语义层级通用分割。将原始多样分布的任务重新组织成统一数据格式(图像、掩码和描述三元组) 。提出 UniLSeg 全对齐框架促进模型对高级语言指令理解,并结合自动标注引擎利用未标记和弱标记数据。UniLSeg 在各种语义相关任务上性能优异。
2025-04-26 11:56:37
681
原创 [VL|RECS]Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentat
在本文中,我们提出了一种新的多任务协作网络 (MCN),用于联合 REC 和 RES 学习的第一次尝试。MCN 通过使用两个任务的属性相互受益来最大化 REC 和 RES 的协作学习优势。此外,我们引入了两种设计,即一致性能量最大化 (CEM) 和自适应软非定位抑制 (ASNLS),以解决这种多任务设置中的关键问题,即预测冲突。三个数据集的实验结果不仅见证了 REC 和 RES 的 SOTA 的显着性能提升,而且还证明了预测冲突得到了很好的解决。
2025-04-09 21:43:40
1037
原创 [VL|RIS]Towards Complex-query Referring Image Segmentation: A Novel Benchmark
鉴于大预训练模型语义理解能力提升,有必要在 RIS 中纳入复杂语言查询。作者基于 RefCOCO 和 Visual Genome 数据集构建新基准数据集 RIS - CQ ,该数据集高质量、大规模,用丰富信息查询挑战现有 RIS,推动 RIS 研究。还提出双模态图对齐模型 DUCOGA 用于 RIS - CQ 任务。
2025-04-03 11:12:35
892
原创 [RS] SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection
SARDet-100K 是曾经创建的第一个 COCO 级大规模多类 SAR 对象检测数据集。有了这个高质量的数据集,我们进行了综合实验,并揭示了 SAR 对象检测的一个关键挑战:RGB 数据集的预训练与数据域和模型结构对 SAR 数据集进行微调之间的巨大差异。为了弥合这些差距,我们提出了一种新颖的多阶段过滤器增强 (MSFA) 预训练框架,该框架从数据输入、域转换和模型迁移的角度解决了问题。所提出的 MSFA 方法显着提高了 SAR 对象检测模型的性能,同时展示了跨不同模型的普遍性和灵活性。
2025-03-19 10:47:45
1043
原创 [VL|RIS] EVF-SAM:Early Vision-Language Fusion for Text-Prompted Segment Anything Model
EVF-SAM 是一种简单而有效的参考分割方法,它利用多模态提示(即图像和文本),并包括一个预训练的视觉语言模型来生成参考提示和一个 SAM 进行分割。令人惊讶的是,我们观察到:(1)多模态提示和(2)早期融合的视觉语言模型(例如,BEIT-3)有利于提示 SAM 进行准确的参考分割。
2025-03-18 12:33:41
982
原创 [VL|RIS] CRIS: CLIP-Driven Referring Image Segmentation
本文主要介绍了一种新的基于CLIP模型的指代图像分割方法,称为CRIS。该方法通过视觉语言解码和对比学习来实现文本和像素级特征之间的对齐,以提高跨模态匹配的能力。作者在三个基准数据集上的实验证明了该方法的有效性。
2025-03-14 12:09:17
808
原创 [VL|RIS] RISAM: Referring Image Segmentation via Mutual-Aware Attention Features
提出了一种参考图像分割方法RISAM,该方法基于参数高效的微调框架利用分段任意模型(SAM),并引入相互感知的注意机制来获得准确的参考掩码。具体来说,我们的相互感知注意机制由视觉引导注意和语言引导注意组成,它双向建模视觉和语言特征之间的关系。相应地,我们设计了 Mutual-Aware Mask 解码器,以实现与语言表达更一致的分割的额外语言指导。为此,引入了多模态查询标记来整合语言信息并同时与视觉信息交互。
2025-03-12 09:29:05
617
原创 [VL|RIS] MMM:Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation
为了解决这个问题,我们提出了多模态相互注意(M3Att)和多模态相互解码器(M3Dec),以更好地融合来自两个输入模式的信息。基于 M3Dec,我们进一步提出了迭代多模态交互 (IMI),以允许语言和视觉特征之间的连续和深度交互。此外,我们引入了语言特征重建 (LFR),以防止语言信息在提取的特征中丢失或失真。
2025-03-09 11:58:21
754
原创 [VL|RIS]DETRIS Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation
目前的PET方法主要是为单模态优化而设计的。虽然一些开创性的研究进行了初步探索,但它们仍然停留在对齐编码器(例如 CLIP)的水平,并且缺乏对未对齐的编码器的探索。这些方法与未对齐的编码器表现出次优性能,因为它们无法在微调期间有效地对齐多模态特征。在本文中,我们介绍了 DETRIS,这是一种参数高效的调整框架,旨在通过在每一层和所有先前层之间建立密集的互连来增强低秩视觉特征传播,从而实现有效的跨模态特征交互和对错位编码器的自适应。我们还建议使用文本适配器来改进文本特征。
2025-03-07 09:37:11
932
原创 [VL|RIS]ReferSAM: Unleashing Segment Anything Model for Referring Image Segmentation
在参考图像分割(RIS)应用中,仅将视觉 - 语言模型的语言特征作为提示嵌入,缺乏细粒度跨模态交互,限制了其效能。本文提出 ReferSAM 框架,通过引入视觉 - 语言交互器(VLI)在图像编码阶段融合语言与视觉特征,实现细粒度对齐,且不改变预训练模型架构;同时借助视觉 - 语言提示器(VLP)生成提示嵌入,使 SAM 掩码解码器输出精准分割结果。在五个公开基准上的实验表明,ReferSAM 在经典及广义 RIS 任务上均达领先水平。
2025-03-02 09:58:37
809
原创 Win10+Ubuntu20.04双系统重装Ubuntu22.04单系统
双系统重装单系统教程。单ubuntu系统重装教程。你可以在 Linux 里做任何你想做的事只要你愿意为此承担后果。你拥有最高的 root 权限。
2024-12-02 12:07:51
1176
原创 [Base]DIFFERENTIAL TRANSFORMER
该论文介绍了差分Transformer(Differential Transformer),一种旨在解决传统Transformer在处理上下文时容易分配过多注意力于无关内容的问题。差分Transformer通过引入差分注意力机制,计算两个独立的softmax注意力图之间的差值,以消除注意力噪声,并促进稀疏的注意力模式生成。实验结果表明,差分Transformer在语言建模和下游任务中的表现优于传统Transformer,尤其在长上下文建模、关键信息检索、减少幻觉生成和上下文学习的鲁棒性方面表现突出。
2024-11-11 11:08:15
434
原创 [Base]CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction
本文介绍了CTA-Net,这是一种用于在小规模数据集(少于100,000个样本)上改善多尺度特征提取的CNN-Transformer聚合网络。CTA-Net解决了CNN和ViT特征融合不足以及模型复杂度高的挑战。通过在ViT框架内整合CNN操作,CTA-Net利用了两种架构的优势,增强了局部特征提取和全局信息处理,提高了网络的表征能力。逆重建CNN变体(RRCV)和轻量级多尺度特征融合多头自注意力(LMF-MHSA)模块通过广泛的消融实验得到了验证。
2024-11-10 19:34:50
1307
3
原创 [Seg] UANet: An Uncertainty-Aware Network for Building Extraction From Remote Sensing Images
我们引入了不确定性的概念,并提出了一种新的UANet。首先,我们利用一个通用的编码器-解码器网络来产生一个通用的不确定提取图。其次,我们提出了 PIGM 来增强最高级别的特征。随后,利用URA提出了UAFM,以消除从高层到低层特征的不确定性。最后,所提出的UANet输出不确定度较低的最终提取图。通过进行充分的实验,我们验证了 UANet 的有效性。
2024-10-07 15:38:13
1222
原创 [VL|Ref]UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
基于参考的对象分割任务,即参考图像分割(RIS)、少镜头图像分割(FSS)、参考视频对象分割(RVOS)和视频对象分割(VOS),旨在通过利用语言或带注释的掩码作为参考来分割特定的对象。尽管在每个各自的领域都取得了重大进展,但目前的方法是针对特定任务设计和开发的,这阻碍了这些任务的多任务能力的激活。在这项工作中,我们结束当前的碎片化情况,并提出 UniRef++ 将四个基于参考的对象分割任务与单个架构统一起来。我们方法的核心是所提出的 UniFusion 模块,该模块执行多路融合以处理有关指定参考的不同任务
2024-10-02 21:23:07
1131
原创 [VL | RVOB] Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation
参考视频分割依赖于自然语言表达来识别和分割对象,通常强调运动线索。以前的工作将句子作为一个整体来处理,并直接在视频级别进行识别,将静态图像级线索与时间运动线索混合。然而,图像级特征不能很好地理解句子中的运动线索,静态线索对时间感知并不重要。事实上,静态线索有时可以通过掩盖运动线索来干扰时间感知。在这项工作中,我们建议将视频级引用表达式理解解耦为静态和动态感知,并特别强调增强时间理解。
2024-09-23 20:54:50
377
1
原创 [VL | RIS] ReMamber: Referring Image Segmentation with Mamba Twister
ReMaber,一种新颖的 RIS 架构,它将 Mamba 的力量与多模态 Mamba Twister 块相结合。Mamba Twister 显式建模图像-文本交互,并通过其独特的通道和空间扭曲机制融合文本和视觉特征。我们使用简单有效的架构在三个具有挑战性的基准上实现了具有竞争力的结果。
2024-09-12 10:00:11
976
原创 [VL | Vision Grounding] PLV:Progressive Language-Customized Visual Feature Learning for One-Stage
提出了一种语言定制的视觉特征学习机制,语言信息从一开始就引导视觉特征的提取。我们将该机制实例化为一种名为渐进式语言自定义视觉特征学习(PLV)的单阶段框架。我们提出的PLV由一个渐进语言定制视觉编码器(PLVE)和一个接地模块组成。我们通过Channel-wise Language-guided Interaction Modules (CLIM)在PLVE的每个阶段定制视觉特征和语言指导。
2024-09-08 21:28:35
923
原创 [VL | VOS]MUTR:A Unified Temporal Transformer for Multi-Modal Video Object Segmentation
本文提出了一种多模态统一时间转换器MUTR,用于参考视频对象分割。MUTR首次有了统一的框架,采用了der风格的转换器,能够分割文本或音频引用指定的视频对象。具体来说,我们引入了两种策略来充分探索视频和多模态信号之间的时间关系。首先,对于变换前的低级时间聚合,我们使多模态引用能够从连续视频帧中捕获多尺度视觉线索。这有效地赋予了文本或音频信号时间知识,并促进了模态之间的语义一致性。其次,对于变换后的高级时间交互,我们对不同的对象嵌入进行帧间特征通信,有助于更好地沿视频跟踪对象对应。
2024-09-06 20:33:34
968
原创 [VL | RIS]ReSTR: Convolution-free Referring Image Segmentation Using Transformers
由于它通过变压器编码器提取两种模式的特征,因此它可以捕获每种模式中实体之间的长期依赖关系。此外,ReSTR通过一个自注意编码器融合了两种模式的特征,从而在融合过程中实现了两种模式之间灵活和自适应的交互。将融合后的特征输入到分割模块中,分割模块根据图像和语言表达进行自适应工作。对ReSTR进行了评估,并将其与之前所有公共基准测试的工作进行了比较,其中它优于所有现有模型。
2024-09-04 19:36:08
1113
原创 [Object Detection]DETR - DeFormable - DINO
目标检测 DETR、DeFormable 和 DINO 的论文速读。
2024-09-03 09:45:06
1023
原创 [VL | RIS] VLT:Vision-Language Transformer and Query Generation for Referring Segmentation
我们引入转换器和多头注意力构建了一个具有编码器-解码器注意机制的网络结构,该结构可以对给定的图像进行语言表达。此外,我们还提出了查询生成模块,该模块生成多组具有不同注意权重的查询,这些查询代表了语言表达从不同方面的多样化理解。同时,为了从这些基于视觉线索的多样化理解中找到最佳的方法,我们进一步提出了查询平衡模块,自适应地选择这些查询的输出特征,以更好地生成掩码。
2024-09-01 10:44:27
1136
原创 [Mutimodal Fusion | Cls]Multimodal Fusion Transformer for Remote Sensing Image Classification
一种新的用于HSI土地覆盖分类的多模态融合(MFT)网络,该网络利用了HSI之外的其他多模态数据来源。在变压器编码器中,使用其他多模态数据作为外部分类(CLS)令牌,而不是使用传统的特征融合技术,这有助于实现更好的泛化。
2024-08-31 09:41:40
1465
原创 [VL | RIS]CrossVLT : Cross-aware Early Fusion with Stage-divided Vision and Language Transformer
交叉感知早期融合与阶段划分的视觉和语言转换编码器(CrossVLT),它通过交替遍历两个转换编码器的每个阶段来嵌入跨模态特征。与以往大多数参考分割模型不同,我们的视觉和语言编码器通过划分两个编码器的阶段来共同进行交叉感知的早期融合,从而相互增强每个编码器的鲁棒性。此外,我们利用基于特征的对齐方案,利用编码器特征的全局范围进行跨模态对齐。该方案通过对编码器各阶段的中间跨模态特征进行对齐,实现了有效的跨模态融合。
2024-08-30 10:22:58
1656
2
原创 [RIS]ReLA GRES: Generalized Referring Expression Segmentation
本文主要介绍了一个新的数据集和任务——Generalized Referring Expression Segmentation (GRES),该任务将传统的Referring Expression Segmentation (RES)任务扩展到了支持多目标和无目标表达式。同时,本文还提出了一个名为ReLA的基准方法,该方法基于区域和语言的关系进行建模,能够有效地解决多目标和无目标表达式的复杂关系建模问题,并在新的GRES数据集和传统的RES数据集上取得了最新的最佳性能。
2024-08-29 19:57:38
1006
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人