
论文速读
文章平均质量分 96
Space65536
接Accept!!!
展开
-
综述速读|086.04.24.Retrieval-Augmented Generation for AI-Generated Content A Survey
论文题目:Retrieval-Augmented Generation for AI-Generated Content: A Survey论文地址:https://arxiv.org/abs/2402.19473。原创 2025-03-29 22:58:39 · 679 阅读 · 0 评论 -
论文速读|086.01.24.Cross-Modal Retrieval A Systematic Review of Methods and Future Directions
(提示:从数据模态、语义匹配、异构性等角度回答)文章中提到的"模态鸿沟"(heterogeneous modality gap)是什么?举例说明其挑战。(提示:参考Fig.2,结合图像和文本的结构差异)跨模态检索的两种主要编码形式(real-value和hashing)各有何优劣?(关键对比:存储/计算效率 vs. 语义信息保留)异构模态差距对跨模态检索的影响?原创 2025-03-29 20:00:11 · 677 阅读 · 0 评论 -
论文速读|Contrastive Region Guidance:Improving Grounding in Vision-LanguageModels WithoutTraining.ECCV24
突出图像中特别相关的区域可以通过引导视觉语言模型(VLMs)更密切地关注这些感兴趣的区域,从而提高其在各种视觉语言(VL)任务中的性能。例如,可以给 VLMs 一个“视觉提示”,其中诸如边界框之类的视觉标记描绘出关键图像区域。然而,目前能够结合视觉引导的 VLMs 要么是专有的且昂贵,要么需要在带有视觉提示的精选数据上进行昂贵的训练。我们引入了对比区域引导(CRG),这是一种无需训练的引导方法,使开源 VLMs 能够响应视觉提示。原创 2025-01-26 02:20:28 · 1084 阅读 · 0 评论 -
论文速读|MitigatingHallucinationfor LVLM by Inter-Modality Correlation Calibration Decoding.ICLR25
大型视觉语言模型 (LVLM) 在下游多模态任务的视觉语言理解方面表现出卓越的能力。尽管取得了成功,但 LVLM 仍然在复杂的生成任务中产生幻觉,导致视觉输入和生成内容不一致。为了解决这个问题,一些方法引入了推理时间干预(inference-time interventions),例如对比解码和注意力校正,以减少对语言先验的过度依赖(reduce overreliance on language priors)。然而,原创 2025-01-26 02:13:08 · 695 阅读 · 0 评论 -
论文速读|Is Cosine-Similarity of Embeddings Really About Similarity?WWW24
论文得出结论:在使用余弦相似性作为嵌入相似性度量时,应注意正则化方法的选择,因为这可能会显著影响结果的稳定性和语义解释能力。【基于objective 2 的方法更好:分别对矩阵A和B正则化,而不是对ABTAB^TABT的点积进行正则化】余弦相似度是两个向量之间角度的余弦值,或者等效于它们归一化之间的点积。一个流行的应用是通过将余弦相似性应用于学习的低维特征嵌入来量化高维对象之间的语义相似性。在实践中,这可能比嵌入向量之间的非规范化点积效果更好,但有时也比更差。原创 2025-01-25 22:25:42 · 951 阅读 · 0 评论 -
论文速读|SigLIP:Sigmoid Loss for Language Image Pre-Training.ICCV23
论文地址:https://arxiv.org/abs/2303.15343v4代码地址:https://github.com/google-research/big_vision。原创 2025-01-24 21:48:29 · 910 阅读 · 0 评论 -
论文速读|InternVL:Scaling up Vision Foundation Models andAligningforGenericVisual-LinguisticTasks.CVPR24
大型语言模型 (LLM) 的指数级增长为多模态 AGI 系统开辟了许多可能性。然而,视觉和视觉语言基础模型(也是多模态 AGI 的关键要素)的进步并没有跟上 LLM 的步伐。在这项工作中,我们设计了一个大规模的视觉语言基础模型 (InternVL),它使用来自各种来源的 Web 规模图像文本数据,将视觉基础模型扩展到 60 亿个参数,并逐步将其与 LLM 保持一致。原创 2025-01-24 20:44:21 · 721 阅读 · 0 评论 -
论文速读|Linguistic-Aware Patch Slimming Framework for Fine-grained Cross-Modal Alignment.CVPR24
跨模式对齐旨在搭建连接视觉和语言的桥梁。这是一项重要的多模态任务,可以有效地学习图像和文本之间的语义相似性。传统的细粒度对齐方法严重依赖预先训练的对象检测器来提取区域特征,用于后续的区域-词对齐,从而为两阶段训练的区域检测和错误传播问题产生大量的计算成本。在本文中,我们专注于主流的视觉转换器,结合补丁特征进行补丁字对齐,同时解决由此产生的视觉补丁冗余和语义对齐的补丁歧义问题。我们提出了一种新的语言感知补丁精简 (LAPS) 框架,用于细粒度对齐,该框架。原创 2025-01-24 20:09:30 · 725 阅读 · 0 评论 -
论文速读|M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining
像 CLIP 这样的视觉语言基础模型已经彻底改变了人工智能领域。然而,支持多语言(例如中文和英文)的视觉语言模型(VLM)由于大规模预训练数据集相对稀缺而滞后。为此,我们引入了一个包含超过 60 亿个图像文本对的综合双语(中英)数据集 BM-6B,旨在增强多模态基础模型以更好地理解两种语言的图像。为了处理如此规模的数据集,我们提出了一种新颖的分组聚合方法用于图像文本对比损失计算,这显著降低了通信开销和 GPU 内存需求,使训练速度提高了 60%。原创 2025-01-24 18:06:37 · 843 阅读 · 0 评论 -
论文速读|Beit: Bert pre training of image transformers.ICLR22
我们介绍了一个自监督视觉表示模型 BEIT,它代表来自 Image Transformers 的 Bidirectional Encoder 表示。遵循在自然语言处理领域开发的 BERT [DCLT19] ,我们提出了一个掩码图像建模任务来预训练视觉 Transformers。具体来说,在我们的预训练中,每个图像都有两个视图,即图像块(例如 16×16 像素)和视觉标记(即离散标记)。我们首先将原始图像“标记化”为视觉标记。然后我们随机屏蔽一些图像补丁并将它们输入到主干 Transformer 中。原创 2025-01-24 16:01:50 · 1188 阅读 · 0 评论 -
论文速读|Matrix-SSL:Matrix Information Theory for Self-Supervised Learning.ICML24
最大熵编码框架为 SimSiam、Barlow Twins 和 MEC 等许多非对比学习方法提供了统一的视角。受该框架的启发,我们引入了 Matrix-SSL,这是一种利用矩阵信息理论将最大熵编码损失解释为矩阵均匀性损失的新方法。此外,Matrix-SSL 通过无缝整合矩阵对齐损失,直接对齐不同分支中的协方差矩阵,增强了最大熵编码方法。原创 2025-01-23 22:45:35 · 1379 阅读 · 0 评论 -
论文速读|MoCo:Momentum Contrast for Unsupervised Visual Representation Learning.CVPR20
我们提出了用于无监督视觉表示学习的 Momentum Contrast (MoCo)。从对比学习 [29] 作为字典查找的角度来看,我们构建了一个带有队列和移动平均编码器的动态字典。这样就可以动态构建一个大型且一致的字典,从而促进对比式无监督学习。MoCo 在 ImageNet 分类的通用线性协议下提供了有竞争力的结果。更重要的是,MoCo 学到的表示可以很好地转移到下游任务中。原创 2025-01-23 22:01:26 · 783 阅读 · 0 评论 -
论文速读|BLIP-2: Bootstrapping VLP with Frozen Image Encoders and Large Language models
由于大规模模型的端到端训练,视觉和语言预训练的成本变得越来越高。本文提出了 BLIP-2,这是一种通用且高效的预训练策略,可从现成的冻结预训练图像编码器和冻结大型语言模型引导视觉语言预训练。BLIP-2 通过轻量级查询转换器QFormer 弥补了模态差距,该转换器分两个阶段进行预训练。第一阶段从冻结图像编码器引导视觉语言表示学习。第二阶段从冻结的语言模型引导视觉到语言的生成学习。尽管可训练参数比现有方法少得多,但 BLIP-2 在各种视觉语言任务上实现了最先进的性能。原创 2025-01-23 18:05:16 · 796 阅读 · 0 评论 -
论文速读|ALBEF:Vision and Language Representation Learning with Momentum Distillation.NIPS21
在各种视觉语言任务中,大规模视觉和语言表征学习都取得了可喜的进步。现有方法大多采用基于变换器的多模态编码器,对视觉标记(基于区域的图像特征)和文字标记进行联合建模。由于视觉标记和单词标记是不对齐的,因此多模态编码器学习图像与文本之间的交互具有挑战性。在本文中,我们引入了一种对比损失法,通过跨模态注意力将图像和文本表征进行对齐,从而实现更接地气的视觉和语言表征学习。与大多数现有方法不同,我们的方法不需要边界框注释或高分辨率图像。原创 2025-01-23 15:26:58 · 773 阅读 · 0 评论 -
论文速读|BLIP: Bootstrapping VLP for Unified Vision-Language Understanding and Generation
视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外,性能改进主要是通过使用从 Web 收集的嘈杂图像-文本对来扩展数据集来实现的,这是一个次优的监督来源。在本文中,我们提出了 BLIP,一种新的 VLP 框架,可灵活地转移到视觉语言理解和生成任务中。BLIP 通过引导字幕来有效地利用嘈杂的 Web 数据,其中captioner 生成合成字幕,过滤器删除嘈杂的字幕。原创 2025-01-23 15:12:28 · 665 阅读 · 0 评论 -
论文速读|AUL:Adaptive Uncertainty-Based Learning for Text-Based Person Retrieval.AAAI24
基于文本的人物检索旨在根据文本描述从画廊中检索特定的行人图像。主要挑战是如何在显著的类内变异和最小的类间变异的情况下克服固有的异质模态差距。现有方法通常采用视觉语言预训练或注意力机制,从噪声输入中学习适当的跨模态对齐。尽管取得了值得称赞的进步,但目前的方法不可避免地存在两个缺陷:1)匹配模糊性,这主要源于不可靠的匹配对;2)单侧跨模态对齐,源于缺乏探索一对多对应关系,即粗粒度语义对齐。这些关键问题会显著降低检索性能。原创 2025-01-22 22:38:30 · 690 阅读 · 0 评论 -
论文速读|TextAug: Test time Text Augmentation for Multimodal Person Re-identification.WACV24
多模态人员重新识别在研究界越来越受欢迎,因为它与对应的 unimodal frameworks 相比是有效的。然而,多模态深度学习的瓶颈是需要大量的多模态训练示例。数据增强技术(如裁剪、翻转、旋转等)通常用于图像域,以提高深度学习模型的泛化。使用图像以外的其他形式(例如文本)进行增强是一项挑战,并且需要大量的计算资源和外部数据源。在这项研究中,我们调查了两种计算机视觉数据增强技术 “cutout” 和 “cutmix” 在多模态人物重新识别中用于文本增强的有效性。原创 2025-01-22 21:59:59 · 802 阅读 · 0 评论 -
论文速读|Multi-Modal Disordered Representation Learning Network for TBPS.AAAI24
基于描述的人物搜索旨在通过文本描述检索目标身份的图像。这项任务的挑战之一是从图像和描述中提取歧视性表示。现有的方法大多采用part based split 方法(基于分割成组件的方法)或外部模型来探索局部特征的细粒度细节,忽略了部分信息之间的全局关系,导致网络不稳定。为了克服这些问题,我们提出了一个多模态无序表示学习网络(MDRL),用于基于描述的人物搜索,以完全提取视觉和文本表示。具体来说,我们设计了一个跨模态全局特征学习架构,从两种模态中学习全局特征,满足任务的需求。原创 2025-01-22 21:34:26 · 880 阅读 · 0 评论 -
论文速读|From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient TBPS.MM24
合成数据是有用但还存在问题,且只有一部分数据起着关键性的作用过滤算法+轻度微调策略在基于文本的人物搜索工作中,数据生成已成为一种普遍做法,解决了对隐私保护的担忧和手动注释的艰巨任务。尽管理论上合成数据的数量可以是无限的,但科学难题仍然存在,即生成的数据量可以最好地为后续的模型训练提供动力。我们观察到,在这些构建的数据集中,只有一部分数据起着决定性的作用。因此,我们引入了一种新的 Filtering-WoRA 范式,其中包含。原创 2025-01-22 20:55:56 · 920 阅读 · 0 评论 -
论文速读|TGDA:通过以行人为中心的视觉去噪和偏差感知对齐来解决TBPS中信息不平等问题.TCSVT23
基于文本的行人搜索是视频监控中的一项重要任务,其目的是检索具有给定描述的相应行人图像。在这个细粒度的检索任务中,准确的跨模态信息匹配是一个重要但具有挑战性的问题。然而**,现有的方法通常忽略了模态之间的信息不等式,这可能会给跨模态匹配带来很大的困难**。具体来说,在此任务中,图像不可避免地包含一些与行人无关的噪声,例如背景和遮挡,并且描述可能会偏向于图像中的部分行人内容。考虑到这一点,在本文中,我们提出了一种文本引导的去噪和对齐 (TGDA) 模型来减轻信息不平等并实现有效的跨模态匹配。原创 2025-01-22 19:58:50 · 771 阅读 · 0 评论 -
论文速读|MARS: Paying more attention to visual attributes for text-based person search
基于文本的人物搜索 (TBPS) 是一个在研究界引起了极大兴趣的问题。该任务是根据文本描述检索特定个人的一张或多张图像。该任务的多模态性质需要学习表示,将文本和图像数据桥接到共享的潜在空间内。现有的 TBPS 系统面临两大挑战。一个被定义为由于文本描述固有的模糊性和不精确性而导致的身份间噪声,它表明视觉属性的描述通常如何与不同的人相关联;另一个是身份内的变化,即所有那些令人讨厌的东西,例如姿势、照明,它们可以改变给定主题的相同文本属性的视觉外观。视觉重建损失和属性损失。前者使。原创 2025-01-22 17:57:22 · 968 阅读 · 0 评论 -
论文速读|RaSa:Relation and Sensitivity Aware Representation Learning for TBPS.IJCAI23
基于文本的人物搜索旨在根据文本描述检索指定的人物图像。解决这一具有挑战性任务的关键是学习强大的多模态表示。关系感知学习(RA)和敏感性感知学习(SA一方面,现有方法将所有正对图像进行聚类表示,忽视了由于文本和配对图像存在噪声对应关系而导致的弱正对图像的噪声问题,从而导致过拟合学习。RA通过引入一种新颖的正对关系检测任务(即学习区分强正对和弱正对)来抵消过拟合风险。另一方面,在现有方法中,通过数据增强学习不变表示(即对某些变换不敏感)是提高表示鲁棒性的一般做法。原创 2025-01-21 23:10:51 · 660 阅读 · 0 评论 -
论文速读| A Survey on Data Synthesis and Augmentation for Large Language Models
大型语言模型 (LLM) 的成功与用于训练和评估的大量、多样化和高质量数据的可用性有着内在的联系。然而,训练数据集的扩展明显超过了高质量数据的增长率,导致迫在眉睫的数据耗尽危机。这凸显了提高数据效率和探索新数据源的迫切需求。在这种情况下,合成数据已成为一种很有前途的解决方案。目前,数据生成主要包括两种主要方法:数据增强和合成。本文全面回顾和总结了LLM 整个生命周期中的数据生成技术,包括数据准备、预训练、微调、指令调整、偏好对齐和应用。原创 2025-01-21 17:05:09 · 1935 阅读 · 0 评论 -
论文速读|PAR: A New Benchmark Dataset and A Large Language Model Augmented Framework.AAAI25
行人属性识别 (PAR) 是以人为中心的研究中不可或缺的任务之一。然而,现有的数据集忽略了不同的领域(例如,环境、时间、人口和数据源),只进行简单的随机拆分,这些数据集的性能已经接近饱和。近 5 年来,没有大规模的数据集向公众开放。为了解决这个问题,本文提出了一种新的大规模、跨域行人属性识别数据集来填补数据空白,称为 MSP60K。它由 8 个场景中的 60,122 张图像和 57 个属性注释组成。还进行了合成降级,以进一步缩小数据集与现实世界具有挑战性的场景之间的差距。原创 2025-01-20 22:43:45 · 640 阅读 · 0 评论 -
论文速读|PLIP: Language-Image Pre-training for Person Representation Learning.用于人物表示学习的语言图像预训练
预训练已成为学习强大人物表征的有效技术。大多数现有方法都表明,在ImageNet和LUPerson等纯视觉大规模数据集上进行预训练已经取得了显着的性能。然而,仅仅依靠视觉信息,缺乏稳健的明确指标,给这些方法学习判别性的人表示带来了挑战。从人物描述的内在细粒度属性指标中汲取灵感,我们探索将语言模态引入人物表征学习中。为此,我们提出了一种新的用于人物表征学习的语言图像预训练框架,称为PLIP。原创 2025-01-18 22:19:12 · 1005 阅读 · 0 评论 -
论文速读|ParGo: Bridging Vision-Language with Partial and Global Views.AAAI25
这项工作介绍了ParGo,这是一种新颖的Partial-Globalprojector,旨在连接多模态大型语言模型(MLLM)的视觉和语言模态。与以前依赖基于全局注意力的projector的工作不同,我们的ParGo通过集成全局视图和部分视图来弥合单独预先训练的视觉编码器和LLM之间的表示差距,从而缓解了对突出区域的过度强调。原创 2025-01-18 20:47:52 · 1049 阅读 · 0 评论 -
论文速读|NoteLLM: A Retrievable Large Language Model for Note Recommendation.WWW24
人们喜欢在在线社区中分享“笔记”,包括他们的经验。因此,推荐符合用户兴趣的笔记已成为一项至关重要的任务。现有的在线方法仅将笔记输入到基于BERT的模型中,以生成用于评估相似性的笔记嵌入。然而,它们可能没有充分利用一些重要的线索,例如主题标签或类别,它们代表了笔记的关键概念。事实上,学习生成主题标签/类别可以潜在地增强笔记嵌入,这两种方法都将关键笔记信息压缩到有限的内容中。此外,大型语言模型(LLM)在理解自然语言方面明显优于BERT。将LLM引入笔记推荐很有希望。原创 2025-01-18 17:28:35 · 1351 阅读 · 0 评论 -
论文速读|Joint Detection and Identification Feature Learning for Person Search.用于人员搜索的联合检测和识别特征学习.CVPR17
现有的人再识别基准和方法主要集中在查询图像和候选图像之间的裁剪行人图像匹配上。然而,这与现实世界的场景不同,在现实世界中,行人边界框的标注不可用,需要从整个场景图像库中搜索目标人物。为了缩小这一差距,我们提出了一种新的用于人物搜索的深度学习框架。我们不是将其分解为两个独立的任务——行人检测和人再识别,而是在单个卷积神经网络中共同处理这两个方面。提出了一种在线实例匹配(OIM)损失函数来有效地训练网络,该函数可扩展到具有众多身份的数据集。原创 2025-01-16 00:02:17 · 358 阅读 · 0 评论 -
论文速读| Multi-Task Learning for Dense Prediction Tasks: A Survey密集预测中的多任务学习综述.TPAMI2020
随着深度学习的出现,许多密集预测任务,即产生像素级预测的任务,已经看到了显着的性能改进。典型的方法是孤立地学习这些任务,即为每个单独的任务训练一个单独的神经网络。然而,最近的多任务学习(MTL)技术通过学习的共享表示联合处理多个任务,在性能、计算和/或内存占用方面显示出有希望的结果。在本次调查中,我们全面介绍了计算机视觉中MTL的最先进深度学习方法,明确强调密集预测任务。我们的贡献涉及以下方面。首先,我们从网络架构的角度考虑MTL。我们包括广泛的概述并讨论了最近流行的MTL模型的优点/缺点。原创 2025-01-15 16:19:49 · 1054 阅读 · 0 评论