文章目录~
- 1.Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding
- 2.Text-Guided Mixup Towards Long-Tailed Image Categorization
- 3.FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
- 4.TG-LMM: Enhancing Medical Image Segmentation Accuracy through Text-Guided Large Multi-Modal Model
- 5.Why mamba is effective? Exploit Linear Transformer-Mamba Network for Multi-Modality Image Fusion
- 6.GoT-CQA: Graph-of-Thought Guided Compositional Reasoning for Chart Question Answering
- 7.SG-MIM: Structured Knowledge Guided Efficient Pre-training for Dense Prediction
- 8.Abstractive Text Summarization: State of the Art, Challenges, and Improvements
- 9.Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment
- 10.Multi-Modal Adapter for Vision-Language Models
- 11.Towards Generative Class Prompt Learning for Fine-grained Visual Recognition
- 12.When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective
- 13.CV-Probes: Studying the interplay of lexical and world knowledge in visually grounded verb understanding
- 14.Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification
1.Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding
标题:Lexicon3D:探索视觉基础模型,理解复杂的 3D 场景
author:Yunze Man, Shuhong Zheng, Zhipeng Bao, Martial Hebert, Liang-Yan Gui, Yu-Xiong Wang
publish:Project page: https://yunzeman.github.io/lexicon3d , Github:
https://github.com/YunzeMan/Lexicon3D
date Time:2024-09-05
paper pdf:http://arxiv.org/pdf/2409.03757v1
摘要:
复杂的三维场景理解越来越受到人们的关注,而场景编码策略在其中扮演着至关重要的角色。然而,针对各种场景的最佳场景编码策略仍不明确,尤其是与基于图像的编码策略相比。为了解决这个问题,我们进行了一项综合研究,探讨了用于三维场景理解的各种视觉编码模型,确定了每种模型在不同场景下的优势和局限性。我们的评估涵盖七种视觉基础编码器,包括基于图像、视频和三维基础模型。我们在四个任务中对这些模型进行了评估:视觉语言场景推理、视觉基础、分割和注册,每个任务都侧重于场景理解的不同方面。我们的评估得出了重要发现:DINOv2 表现出卓越的性能,视频模型在对象级任务中表现出色,扩散模型有利于几何任务,而语言训练模型在语言相关任务中表现出意想不到的局限性。这些发现对一些传统认识提出了挑战,为利用视觉基础模型提供了新的视角,并强调了在未来的视觉语言和场景理解任务中更灵活地选择编码器的必要性。
2.Text-Guided Mixup Towards Long-Tailed Image Categorization
标题:文本引导混合实现长尾图像分类
author:Richard Franklin, Jiawei Yao, Deyang Zhong, Qi Qian, Juhua Hu
publish:Accepted by BMVC’24, code is available at
https://github.com/rsamf/text-guided-mixup
date Time:2024-09-05
paper pdf:http://arxiv.org/pdf/2409.03583v1
摘要:
在许多实际应用中,训练数据的类标签频率分布可能呈现长尾分布,这对需要大量均衡数据的传统深度神经网络训练方法提出了挑战。收集和标注数据以平衡类标签分布既昂贵又耗时。许多适用于深度神经网络的集合学习、重新平衡策略或微调的现有解决方案,都受限于跨类子集的类样本较少这一惰性问题。最近,人们发现,像 CLIP 这样的视觉语言模型可以通过把握图像和文本对的视觉和语言特征之间的相似性,有效解决零镜头或少镜头学习问题。考虑到预先训练的大型视觉语言模型可能包含对次要类别有价值的文本信息,我们建议利用文本监督来应对长尾学习的挑战。具体来说,我们提出了一种新颖的文本指导混合技术,利用预训练文本编码器识别的类别之间的语义关系来帮助缓解长尾问题。我们对基准长尾任务进行的实证研究证明了我们的建议的有效性,并提供了理论保证。我们的代码见 https://github.com/rsamf/text-guided-mixup。
3.FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
标题:FrozenSeg:为开放词汇分词统一冻结基础模型
author:Xi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao
publish:14 pages, 9 figures
date Time:2024-09-05
paper pdf:http://arxiv.org/pdf/2409.03525v1
摘要:
开放式词汇分割带来了巨大的挑战,因为它需要在不受约束的环境中分割和识别开放式类别集的对象。在强大的视觉语言(ViL)基础模型(如 CLIP)取得成功的基础上,最近的研究试图利用这些模型的零缺点功能来识别未见类别。尽管性能有了显著提高,但这些模型仍然遇到了一个关键问题,即如何为未见类别和场景生成精确的掩码建议,从而最终导致较差的分割性能。为了应对这一挑战,我们引入了一种新方法 FrozenSeg,旨在将来自定位基础模型(如 SAM)的空间知识和从 ViL 模型(如 CLIP)中提取的语义知识整合到一个协同框架中。以 ViL 模型的视觉编码器为特征骨干,我们将空间感知特征注入可学习查询和转换解码器中的 CLIP 特征。此外,我们还设计了一种掩码建议集合策略,以进一步提高召回率和掩码质量。为了充分利用预先训练的知识,同时最大限度地减少训练开销,我们冻结了两个基础模型,将优化工作仅集中在用于生成掩码建议的轻量级变压器解码器上,而这正是性能瓶颈所在。广泛的实验证明,FrozenSeg 在各种分割基准上都取得了领先于同行的结果,它完全是在 COCO 全景数据上训练出来的,并且是以零镜头的方式进行测试的。代码见 https://github.com/chenxi52/FrozenSeg。
4.TG-LMM: Enhancing Medical Image Segmentation Accuracy through Text-Guided Large Multi-Modal Model
标题:TG-LMM:通过文本引导的大型多模态模型提高医学图像分割精度
author:Yihao Zhao, Enhao Zhong, Cuiyun Yuan, Yang Li, Man Zhao, Chunxia Li, Jun Hu, Chenbin Liu
publish:11 pages, 2 figures
date Time:2024-09-05
paper pdf:http://arxiv.org/pdf/2409.03412v1
摘要:
我们提出的 TG-LMM(文本引导的大型多模态模型)是一种利用器官的文本描述来提高医学图像分割准确性的新方法。现有的医学图像分割方法面临着几个挑战:目前的医学自动分割模型不能有效利用先验知识,如器官位置的描述;以前的文本-视觉模型侧重于识别目标,而不是提高分割准确性;先验模型试图利用先验知识来提高准确性,但没有结合预先训练的模型。为了解决这些问题,TG-LMM 将先验知识,特别是专家对器官空间位置的描述,整合到分割过程中。我们的模型利用预先训练好的图像和文本编码器来减少训练参数的数量,加快训练过程。此外,我们还设计了一个全面的图像-文本信息融合结构,以确保彻底整合两种数据模式。我们在三个权威医学图像数据集上对 TG-LMM 进行了评估,其中包括人体各部位的分割。与 MedSAM、SAM 和 nnUnet 等现有方法相比,我们的方法表现出了卓越的性能。
5.Why mamba is effective? Exploit Linear Transformer-Mamba Network for Multi-Modality Image Fusion
标题:为什么 mamba 很有效?利用线性变换器-曼巴网络实现多模态图像融合
author:Chenguang Zhu, Shan Gao, Huafeng Chen, Guangqian Guo, Chaowei Wang, Yaoxing Wang, Chen Shu Lei, Quanjiang Fan
date Time:2024-09-05
paper pdf:http://arxiv.org/pdf/2409.03223v1
摘要:
多模态图像融合旨在整合不同来源图像的优点,呈现高质量的融合图像。然而,现有的特征提取和融合方法要么受限于推理过程中固有的局部还原偏差和静态参数(CNN),要么受限于二次计算复杂度(Transformers),无法有效地提取和融合特征。为解决这一问题,我们提出了一种名为 Tmamba 的双分支图像融合网络。它由线性 Transformer 和 Mamba 组成,在保持线性复杂度的同时具有全局建模能力。由于 Transformer 和 Mamba 结构的不同,两个分支提取的特征分别带有信道和位置信息。我们在两个分支之间设计了 T-M 交互结构,利用全局可学习参数和卷积层分别传递位置和信道信息。我们进一步提出了注意力层面的跨模态交互,以获得跨模态注意力。实验表明,我们的 Tmamba 在包括红外可见光图像融合和医学图像融合在内的多种融合任务中取得了可喜的成果。带有检查点的代码将在同行评审后公布。
6.GoT-CQA: Graph-of-Thought Guided Compositional Reasoning for Chart Question Answering
标题:GoT-CQA:用于图表问题解答的思维导图组合推理
author:Lingling Zhang, Muye Huang, QianYing Wang, Yaxian Wang, Wenjun Wu, Jun Liu
date Time:2024-09-04
paper pdf:http://arxiv.org/pdf/2409.02611v1
摘要:
图表问题解答(CQA)旨在回答基于可视化图表内容的问题,在图表汇总、业务数据分析和数据报告生成中发挥着重要作用。CQA 是一项具有挑战性的多模态任务,因为它具有很强的上下文依赖性和复杂的推理要求。前者是指严格根据给定图表的可视化内容或内部数据分析来回答这一问题,而后者则强调答案预测过程中涉及的各种逻辑和数字推理。本文更加关注 CQA 任务中的复杂推理,并提出了一种名为 GoT-CQA 的新型思维图(Graph-of-Thought,GoT)引导的组合推理模型来克服这一问题。首先,我们将面向图表的问题转化为由多个算子节点(包括定位算子、数字算子和逻辑算子)组成的有向无环 GoT。它直观地反映了人脑对这一问题的求解过程。之后,我们设计了一个以 GoT 为指导的高效自动组合推理框架,以提取各种类型问题中的多步推理操作。在 ChartQA 和 PlotQA-D 数据集上的综合实验表明,与最新流行的基线相比,GoT-CQA 取得了出色的性能,尤其是在复杂的人类写作和推理问题上。
7.SG-MIM: Structured Knowledge Guided Efficient Pre-training for Dense Prediction
标题:SG-MIM:结构化知识指导下的高密度预测高效预训练
author:Sumin Son, Hyesong Choi, Dongbo Min
date Time:2024-09-04
paper pdf:http://arxiv.org/pdf/2409.02513v1
摘要:
遮蔽图像建模(MIM)技术重新定义了计算机视觉领域,使预先训练好的模型在各种任务中都能取得优异的性能。尽管取得了成功,但基于 MIM 的方法在密集预测任务,尤其是深度估计方面的潜力仍未得到充分挖掘。现有的 MIM 方法主要依赖于单张图像输入,这使得捕捉关键的结构化信息具有挑战性,从而导致在需要精细特征表示的任务中表现不佳。为了解决这些局限性,我们提出了 SG-MIM,这是一种新颖的结构化知识引导的屏蔽图像建模框架,旨在通过利用图像旁的结构化知识来增强密集预测任务。SG-MIM 采用了轻量级关系引导框架,允许它在特征级别单独引导结构化知识,而不是像传统多模态预训练方法中常见的那样,在同一架构内天真地在像素级别进行组合。这种方法使模型能够有效捕捉基本信息,同时最大限度地减少预训练与下游任务之间的差异。此外,SG-MIM 还采用了一种选择性屏蔽策略来纳入结构化知识,最大限度地发挥了一般表征学习和特定结构化知识学习之间的协同作用。我们的方法不需要额外的注释,因此是一种适用于广泛应用的多用途高效解决方案。我们在 KITTI、NYU-v2 和 ADE20k 数据集上进行的评估表明,SG-MIM 在单目深度估计和语义分割方面具有优势。
8.Abstractive Text Summarization: State of the Art, Challenges, and Improvements
标题:抽象文本摘要:技术现状、挑战和改进
author:Hassan Shakil, Ahmad Farooq, Jugal Kalita
publish:9 Tables, 7 Figures
date Time:2024-09-04
paper pdf:http://arxiv.org/pdf/2409.02413v1
摘要:
相对于抽取式技术,本调查报告特别关注抽象文本摘要的发展前景,对最新技术、当前挑战和前瞻性研究方向进行了全面概述。我们将这些技术分为传统的序列到序列模型、预训练大型语言模型、强化学习、分层方法和多模态摘要。与以往没有详细研究复杂性、可扩展性和技术比较的作品不同,本综述采用了一种全面的方法,涵盖了最先进的方法、挑战、解决方案、比较、局限性,并描绘了未来的改进方向–为研究人员提供了一个广泛的概览,以推进抽象摘要研究。我们提供了分类技术的重要比较表,让读者深入了解模型的复杂性、可扩展性和适当的应用。本文重点讨论了意义表征不足、事实一致性、可控文本摘要、跨语言摘要和评估指标等挑战。针对这些挑战,论文提出了利用知识整合和其他创新策略的解决方案。论文最后强调了一些新兴研究领域,如事实不一致、特定领域、跨语言、多语言和长文档摘要以及噪声数据处理。我们的目标是为研究人员和从业人员提供该领域的结构化概述,使他们能够更好地了解当前的状况,并确定进一步研究和改进的潜在领域。
9.Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment
标题:通过保持接合嵌入对齐优化用于图像检索的 CLIP 模型
author:Konstantin Schall, Kai Uwe Barthel, Nico Hezel, Klaus Jung
date Time:2024-09-03
paper pdf:http://arxiv.org/pdf/2409.01936v1
摘要:
对比语言和图像配对(CLIP)是多媒体检索中的一种变革性方法,通常会同时训练两个神经网络,为文本和图像配对生成联合嵌入。然而,在直接应用时,这些模型往往难以区分具有相似标题的视觉上不同的图像,导致基于图像的相似性搜索性能不佳。本文探讨了如何针对各种基于图像的相似性搜索场景优化 CLIP 模型,同时保持其在文本搜索任务(如文本到图像检索和零镜头分类)中的有效性。我们提出并评估了两种新方法,旨在完善 CLIP 的检索能力,同时不影响文本和图像嵌入之间的一致性。第一种方法涉及一个连续的微调过程:首先优化图像编码器以实现更精确的图像检索,然后根据这些优化的图像嵌入重新调整文本编码器。第二种方法是在检索优化阶段整合伪标题,以促进嵌入空间内的直接对齐。通过综合实验,我们证明这些方法提高了 CLIP 在各种基准测试中的性能,包括图像检索、k-NN 分类和基于零镜头文本的分类,同时保持了文本到图像检索的鲁棒性。我们的优化模型允许每幅图像保持单一嵌入,从而大大简化了大规模多模态相似性搜索系统所需的基础设施。
10.Multi-Modal Adapter for Vision-Language Models
标题:视觉语言模型的多模式适配器
author:Dominykas Seputis, Serghei Mihailov, Soham Chatterjee, Zehao Xiao
date Time:2024-09-03
paper pdf:http://arxiv.org/pdf/2409.02958v1
摘要:
大型预训练视觉语言模型(如 CLIP)已在各种图像分类任务中展示出最先进的性能,而无需重新训练。与在下游任务中接受过训练的现有专业架构相比,CLIP 的快速反应能力具有很强的竞争力。最近的研究表明,使用轻量级适应方法可以进一步提高 CLIP 的性能。然而,以前的方法都是单独适应 CLIP 模型的不同模式,忽略了视觉和文本表征之间的交互和关系。在这项工作中,我们提出了多模式适配器(Multi-Modal Adapter),这是一种对 CLIP 进行多模式适配的方法。具体来说,我们添加了一个可训练的多头注意力层,该层结合文本和图像特征,对两者进行加法适应。与现有的适配方法相比,多模式适配器在未见过的类别上表现出了更好的通用性。我们还进行了额外的消减和调查,以验证和解释所提出的方法。
11.Towards Generative Class Prompt Learning for Fine-grained Visual Recognition
标题:面向细粒度视觉识别的生成类提示学习
author:Soumitri Chattopadhyay, Sanket Biswas, Emanuele Vivoli, Josep Lladós
publish:Accepted in BMVC 2024
date Time:2024-09-03
paper pdf:http://arxiv.org/pdf/2409.01835v2
摘要:
尽管基础视觉语言模型(VLM)已被证明在各种语义辨别任务中非常成功,但它们仍然难以忠实地完成细粒度分类任务。此外,如果不进行微调,在一个领域中训练出来的基础模型在不同领域中的泛化效果并不好。我们将这些问题归咎于 VLM 语义表征的局限性,并尝试使用生成建模来提高它们的细粒度视觉感知能力。具体来说,我们提出了两种新方法:生成类提示学习(GCPL)和对比多类提示学习(CoMPLe)。GCPL 利用文本到图像的扩散模型,通过对具有可学习类提示的少量示例进行调节,显著提高了类嵌入中的视觉语言协同作用。在此基础上,CoMPLe 引入了对比学习组件,在生成优化过程中鼓励类间分离。我们的实证结果表明,这种生成类提示学习方法大大优于现有方法,为少镜头图像识别挑战提供了更好的选择。源代码可在以下网址获取:https://github.com/soumitri2001/GCPL。
12.When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective
标题:视觉提示何时优于线性探测视觉语言模型?可能性视角
author:Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Tsung-Yi Ho
date Time:2024-09-03
paper pdf:http://arxiv.org/pdf/2409.01821v2
摘要:
根据新任务调整预先训练好的模型,在不同的数据集上会表现出不同的效果。视觉提示是一种最先进的参数高效迁移学习方法,可以显著提高分布外任务的性能。另一方面,标准的迁移学习方法线性探测有时会成为最佳方法。我们提出了一种对数似然比(LLR)方法来分析视觉提示和线性探测的比较优势。通过将 LLR 分数与节省资源的可视化提示近似值结合使用,我们的成本效益措施与完全训练相比,运行时间最多可缩短 100 倍,预测准确率则高达 91%。源代码见 https://github.com/IBM/VP-LLR。
13.CV-Probes: Studying the interplay of lexical and world knowledge in visually grounded verb understanding
标题:CV-Probes:研究视觉基础动词理解中词汇和世界知识的相互作用
author:Ivana Beňová, Michal Gregor, Albert Gatt
publish:13 pages, 1 figure, 11 tables, LIMO Workshop at KONVENS 2024
date Time:2024-09-02
paper pdf:http://arxiv.org/pdf/2409.01389v1
摘要:
本研究探讨了各种视觉语言(VL)模型对依赖上下文和不依赖上下文的动词短语的定位能力。为此,我们引入了 CV-Probes 数据集,该数据集专门用于研究上下文理解,包含依赖上下文的动词(如 “乞讨”)和非依赖上下文的动词(如 “坐下”)的图像标题对。我们采用 MM-SHAP 评估来评估动词标记对模型预测的贡献。我们的结果表明,VL 模型很难有效地将上下文相关的动词短语作为基础。这些发现凸显了在训练 VL 模型以准确整合语境方面所面临的挑战,表明需要改进 VL 模型的训练和评估方法。
14.Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification
标题:增强遥感视觉语言模型,实现零镜头场景分类
author:Karim El Khoury, Maxime Zanella, Benoît Gérin, Tiffanie Godelaine, Benoît Macq, Saïd Mahmoudi, Christophe De Vleeschouwer, Ismail Ben Ayed
date Time:2024-09-01
paper pdf:http://arxiv.org/pdf/2409.00698v1
摘要:
用于遥感的视觉语言模型因其广泛的预训练而显示出广阔的应用前景。然而,这些模型在零镜头场景分类方法中的传统应用仍然涉及将大型图像划分为多个斑块并进行独立预测,即归纳推理,从而忽略了有价值的上下文信息,限制了其有效性。为了解决这个问题,我们的方法是利用基于文本提示的初始预测和图像编码器提供的斑块亲和力关系,通过归纳推理增强零镜头能力,所有这些都不需要监督,计算成本也很低。利用最先进的视觉语言模型在 10 个遥感数据集上进行的实验表明,与归纳式零点分类相比,我们的准确率有了显著提高。我们的源代码可在 Github 上公开获取:https://github.com/elkhouryk/RS-TransCLIP