CLIP怎么“魔改”?盘点CLIP系列模型泛化能力提升方面的研究

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心大语言模型技术交流群

编辑 | 自动驾驶之心

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以来,在多个领域展现了强大的跨模态泛化能力,比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中,这有助于在缺乏大量标注数据的情况下,提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务,如视频行为识别,即使在没有针对特定任务进行过训练的情况下,也能够表现出良好的性能。本文总结了CLIP的几大经典应用场景,并梳理了近期发布的一些公众:在局部物体识别、图像生成、音频生成、动作识别和零样本异常检测多个领域的泛化能力。

为了将CLIP扩展为多模态模型,从而能够适用于多模态任务,文章对CLIP进行了多种“改造”:添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法,CLIP可以被扩展为一个强大的多模态模型,能够处理包括图像、视频、文本和音频在内的多种数据类型,进而在多模态学习和理解任务中展现出强大的泛化能力。

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

https://arxiv.org/abs/2407.14117

文章总结

最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练(CLIP)的low-shot能力。然而,对原有模型的调整方法通常是在输入图像的全局视图上操作的,因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题,我们提出了在测试阶段的适应计算之前进行视觉内容细化(VCR, Visual Content Refinement)。具体来说,我们首先将测试图像分解为不同的比例,以将特征提取器的注意力转移到图像的细节上。然后,我们选择每个尺度中具有最大预测边际(max prediction margin)的图像视图,以过滤掉嘈杂的图像视图,其中预测边际是根据预训练的 CLIP 模型计算的。最后,我们根据所选图像视图的比例合并其内容,以构建新的具有鲁棒性的表示。因此,合并的内容可以直接用于帮助适配器专注于全局和局部部分,而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务,取得了比最先进方法的显著改进。例如,与少样本分类任务的基线(Tip-Adapter)相比,本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。

模型解析

  • 本文的模型聚焦于图像多尺度分解,即将测试图像分解成不同的尺度(或称为“视图”),旨在使特征提取器能够关注到图像中的细节信息,通过多尺度分解,不同尺度的图像视图能够捕捉到从全局到局部的多种特征。

  • 在每个尺度中选择最具代表性的图像视图,即那些对分类任务贡献最大的视图,以过滤掉噪声和冗余信息:使用预训练的 CLIP 模型对每个图像视图进行预测,并计算其预测边际。预测边际反映了模型对特定类别的确信程度,通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中,选择具有最大预测边际的图像视图。

  • 将不同尺度下选出的图像视图合并成一个新的表示,该表示既包含全局信息也包含重要的局部细节:对于不同尺度下的细化特征,通过学习一个权重向量来实现,该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并,即将多个尺度的特征按照权重相加,形成一个统一的表示。

  • 这个新的表示可以用于免训练适配器(training-free adapter)或提示学习器(prompt learner),帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并,有效地提升了低样本 CLIP 适配的性能。

391745d5c3b0360712caf7be8e228936.png

SAM2CLIP2SAM:3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

https://arxiv.org/abs/2407.15728

文章总结

本文提出了一种图像有效分割的新方法,可以集成到任何模型和方法中,对用于 Covid-19 检测的医学图像(3D 胸部 CT 扫描)进行分类。本文的方法包括视觉语言模型的组合,这些模型对 CT 扫描进行分割,然后将其馈送到名为 RACNet 的深度神经架构中,用于 Covid-19 检测。特别是,引入了一个名为 SAM2CLIP2SAM 的新框架进行分割,该框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的优势,在 CT 扫描中准确分割右肺和左肺,随后将这些分割输出输入 RACNet,用于对 COVID-19 和非 COVID-19 病例进行分类。首先,SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板;然后 CLIP 仅选择与感兴趣区域 (ROI, regions of interest) 相关的掩码,即右肺和左肺;最后,SAM 被赋予这些 ROI 作为提示,并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库,这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。

模型解析

  • 文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)对CT扫描中的每一层(slice)进行初步分割,生成多个基于部分的分割掩码(part-based segmentation masks)。

  • 利用Contrastive Language-Image Pre-Training(CLIP)模型从SAM生成的多个分割掩码中选择与感兴趣区域(ROIs),即右肺和左肺,相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标,它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示(prompts)重新输入给SAM,SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。

  • 这些分割后的图像数据被输入到RACNet中,RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构,包括一个卷积神经网络(CNN)和一个递归神经网络(RNN)。RACNet通过处理这些分割后的图像数据,提取相关特征,并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势,实现了对CT扫描中特定区域(如肺部)的精确分割。随后,通过RACNet对分割后的图像数据进行深入分析,提高了COVID-19诊断的准确性和可靠性。

3365205551cb735f39fb5e55c12a0ca3.png b525e865a0f962f757beb15c9783fc07.png

2 图像生成

DiffX:指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

https://arxiv.org/abs/2407.15488

文章总结

扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是,大多数扩散模型仅限于生成可见的 RGB 图像。事实上,人类对世界的感知因各种观点而丰富,包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGB+X”生成的新型扩散模型,称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集,并辅以手动校正。值得注意的是,DiffX 提供了一个简单而有效的跨模态生成建模管道,该管道在双路径变分自动编码器 (DP-VAE) 的推动下,在模态共享的潜在空间中进行扩散和去噪过程。此外,结合了门控交叉注意力机制来连接布局和文本条件,利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验,DiffX在各种布局类型的指导下,在三个RGB+X数据集(FLIR、MFNet和COME15K)上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGB+X+Y”或更多样化模态的潜力。

模型解析

  • 文章首先使用LLaVA模型(一种用于图像标注的模型)来自动生成跨模态图像数据集的文本描述,并辅以手动校正。

  • 然后利用DiffX模型进行跨模态生成建模,该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器(DP-VAE),它允许在不同模态(如RGB和X)之间共享潜在表示,从而支持跨模态生成。

  • 为了连接布局和文本条件,DiffX模型结合了门控交叉注意力机制,有效地将布局信息和文本信息相结合,使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导,DiffX模型利用Long-CLIP来嵌入长字幕,从而能够处理更长的文本描述,并将其转换为有效的特征表示,这些特征表示被用于指导跨模态图像的生成过程。

DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术,实现了有效的跨模态“RGB+X”图像生成,展示了在更复杂的跨模态生成任务(如“RGB+X+Y”或更多样化的模态)中的潜力。

31c35e89a8644e8bf1fd2bf0275fed18.png 30d55e1df2c44544697042b0ff21427f.png

X-Former:MLLM的统一对比和重构学习

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

https://arxiv.org/abs/2407.13851

文章总结

多模态大型语言模型 (MLLM) 的最新进展通过将视觉感知能力集成到大型语言模型 (LLM) 中,彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 (CL) 的视觉编码器,在捕捉整体表征方面表现出专业知识,同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 (MIM) 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示增强 MLLM 的视觉表示。为了实现这一目标,本文推出了X-Former,这是一种轻量级Transformer模块,旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说,X-Former 首先从两个冻结的视觉编码器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习,以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性,我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明,X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。

模型解析

  • 首先利用两个冻结的视觉编码器(CLIP-ViT和MAE-ViT)来引导视觉语言表示学习,CLIP-ViT通过视觉语言对比学习策略进行预训练,而MAE-ViT通过随机掩码图像建模机制进行训练,两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息,并同时学习全局和局部信息,引入了一个轻量级的Transformer模块,称为X-Former,它扩展了Q-Former来整合全局和局部信息。

  • X-Former的输入为一组可学习的query Z,输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query,Q-Former输出(Zq)作为key和value,通过集成来自Q-Former的全局语义信息来对齐和增强M,从而丰富了MAE特征(M’)。随后,M’通过交叉注意整合全局和局部信息,将Q-Former输出(Zq)增强到Z '。

  • 增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后,将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

X-Former是一个轻量级的Transformer模块,它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制,X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出,并生成既包含全局语义信息又包含详细局部特征的视觉表示。

f44bf852a973ecc231d5a91c645e7345.png

3 音频生成

!盲文也能玩:盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

https://arxiv.org/abs/2407.14212

文章总结

越来越多的中国人受到不同程度的视觉障碍的困扰,这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCR+Vocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而,用于培训的音频数据有限,英语对于不同教育水平的视障人士来说并不通用。因此,为了解决数据量和语言适用性问题,提高视障人群的阅读效率,构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型,并采用了自主预训练和联合微调的策略。首先,分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练,并验证了它们的收敛性。随后,使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明,该模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客观指标上均有所提升,甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力,也证明了整合多个基础模型的联合训练策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段:图像到文本阶段(image-to-text)和文本到语音阶段(text-to-speech)。

  • 图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习,在MUGE等公开数据集上进行预训练,学习图像与文本对的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法从图像中检索出文本信息,KNN根据正负样本之间的特征差异来提取文本。

  • 文本到语音阶段使用Fastspeech2 文本转语音模型,在Baker等公开数据集上进行预训练,学习文本到语音的映射关系。输入上一阶段生成的文本,生成对应的mel频谱图,并将其解码为语音。

最后使用自建的盲文图像数据集(Braille dataset)进行联合微调。

56317cae00bb17b7b1886d37e54d7a37.png

4 动作识别

M2-CLIP:一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

https://arxiv.org/abs/2401.11649

文章总结

近年来,大规模视觉语言预训练模型(如CLIP)的兴起,再加上参数高效微调(PEFT)技术,在视频动作识别领域引起了极大的关注。然而,流行的方法倾向于优先考虑强大的监督性能,代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战,同时保持高监督性能和鲁棒可移植性。首先,为了增强单个模态体系结构,我们在可视化和文本分支中引入了多模态适配器。具体来说,文章设计了一种新的视觉TED适配器,它执行全局时间增强和局部时间差分建模,以提高视觉编码器的时间表示能力。此外,我们采用文本编码器适配器来加强语义标签信息的学习。其次,文章设计了一个具有丰富监督信号集的多任务解码器,以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性,在监督学习中表现出卓越的性能,同时在零样本场景中保持了很强的泛化。

模型解析

  • M2-CLIP框架输入为视频V和文本标签y,视频经过视频编码器处理后,其特征在时间维度上进行平均池化,得到最终的视频表示v。文本标签经过文本编码器处理后,得到文本表示w。输出为通过多任务解码器得到的分类结果,可以用于监督学习任务和零样本分类任务。

  • M2-CLIP引入了多模态适配器,包括一个视觉TED-Adapter,用于改善视觉编码器的时间表示能力,来实现全局时间增强(Temporal Enhancement)和局部时间差异(local temporal Difference)建模;以及一个文本编码器适配器,用于加强学习语义标签信息。

  • M2-CLIP的多任务解码器包括对比学习头(Contrastive Learning Head),用于对齐视频和文本表示的成对表示,使用对比学习损失进行优化;跨模态分类头(Cross-Modal Classification Head, CMC),用于突出跨模态特征的判别能力,通过将问题转化为1-C分类任务来增强跨模态相似性分数;跨模态掩码语言模型头(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一层设计,促进视觉特征聚焦于动作动词的识别,使用BERT掩码语言模型头来预测掩码词;视觉分类头(Visual Classification Head, VC),在视觉分支末端引入,用于增强不同类别视频特征的区分度,使用线性层进行分类。

M2-CLIP框架能够在保持高监督性能的同时,实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器,它们共同作用于视频和文本的联合表示学习,并通过不同的学习任务来提升模型的语义对齐和类别区分能力。

ce9ed11b8d9a5fb73ce0a0fc7a85bfa7.png

细粒度知识图谱驱动的视频语言学习,用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

https://arxiv.org/abs/2407.14146

文章总结

最近的工作已经探索了视频动作识别作为视频-文本匹配问题,并提出了几种基于大规模预训练视觉语言模型的有效方法。然而,这些方法主要在粗粒度的层面上运行,而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距,我们提出了一个由知识图谱指导的对比视频语言学习框架,称为KG-CLIP,它将结构化信息整合到视频领域的CLIP模型中。具体来说,我们通过基于组合学习的解析动作,构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器偏差补偿来自适应优化实体距离函数中的边际,我们的模型旨在改善知识图谱中实体的对齐,以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS(一个大规模的动作解析数据集)上全面评估了KG-CLIP,证明了其与竞争基线相比的有效性。特别是,我们的方法在样本帧少或训练数据有限的情况下,在动作识别方面表现出色,表现出优异的数据利用和学习能力。

模型解析

  • KG-CLIP通过解析视频内容(如动作、场景、物体等)和相关的文本描述(如动作标签、句子描述等),构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素(如动作、身体部位的运动),还包含了它们之间的语义关系和上下文信息(如动作描述、概念标签等)。在构建好知识图谱后,KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层,使其能够接收知识图谱中的结构化信息(如实体嵌入、关系向量等),以在视频领域实现更高效的视频-文本匹配

  • 然后利用CLIP模型的视觉编码器部分,从视频中提取出丰富的视觉特征,包括视频中的基本元素(如颜色、纹理、形状等),及更高级别的语义信息(如动作、场景等)。

  • KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息,它接收知识图谱中的三元组作为输入,并输出每个实体和关系的向量表示(如<头实体, 关系, 尾实体>)。这些向量表示随后被用于计算实体之间的距离和相似性。

  • KG-CLIP引入了偏差补偿机制,根据实体的具体特征和它们之间的关系,动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性,从而提高模型的整体性能。

KG-CLIP通过一系列创新性的设计(如知识图谱构建、三元编码器实现、偏差补偿机制等),成功地将结构化信息整合到CLIP模型中,并在视频动作识别等任务中取得了显著的性能提升。

619a8cacbfdf9008350a2de86f680037.png

5 零样本异常检测

AnomalyCLIP:用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

https://arxiv.org/abs/2310.18961

文章总结

最近,大型预训练视觉语言模型 (VLM),例如 CLIP,在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而,它们的零样本异常检测(ZSAD)性能较弱,因为VLM更侧重于对前景对象(foreground objects)的类语义进行建模,而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法,即AnomalyCLIP,使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示,这些文本提示会捕获图像中的一般正常性和异常性,而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义,从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明,AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。

模型解析

  • AnomalyCLIP设计了两种通用的与对象无关文本提示(Object-Agnostic Text Prompts)模板:一种用于正常性(normality),另一种用于异常性(abnormality)。这些提示模板不包含具体对象的语义,而是专注于捕获图像中的异常模式,无论前景对象是什么。

  • 然后进行全局上下文优化和局部上下文优化:通过交叉熵损失函数,将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配,以捕获全局特征中的正常/异常语义。通过焦点损失(Focal Loss)和Dice损失,优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。

  • 通过在CLIP文本编码器的每一层添加可学习的标记嵌入(token embeddings),来精细化原始文本空间,使其更适合异常检测任务。通过引入对角突出的注意力图(Diagonally Prominent Attention Map, DPAM)来改进局部视觉空间,使得注意力图更加关注局部视觉语义,从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征,以提供更多的局部视觉细节,增强模型对异常区域的识别能力。

e9904c8f68a9f644c9a105e545c0634b.png

AdaCLIP:使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

https://arxiv.org/abs/2407.15795

文章总结

零样本异常检测(ZSAD)的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务,利用预训练的视觉语言模型(VLM)CLIP。AdaCLIP将可学习的提示整合到CLIP中,并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示:静态提示和动态提示。静态提示在所有图像中共享,用于初步调整CLIP以适应ZSAD。相比之下,为每个测试图像生成动态提示,为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示,可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明,AdaCLIP优于其他ZSAD方法,可以更好地推广到不同的类别甚至领域。最后,我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了两种类型的提示——静态提示(Static Prompts)和动态提示(Dynamic Prompts)。静态提示在所有图像中共享,它们在训练过程中从辅助数据中学习,用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的,它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来,形成混合提示,这样可以提高模型对新类别图像的异常检测性能。

  • 为了解决CLIP原始架构中图像嵌入(Patch Embeddings)与文本嵌入维度不匹配的问题,AdaCLIP添加了一个投影层来对齐这些嵌入的维度,并通过引入偏差的线性层增加了一些可学习的参数,以进一步微调CLIP。

  • AdaCLIP还引入了混合语义融合模块(Hybrid Semantic Fusion, HSF)用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图(Anomaly Maps,基于图像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域,其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测,从而更准确地定位和识别图像中的异常区域。

综上,AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数,这些分数表示图像及其像素是否正常或异常。

7355076b71e4a282de79316a42eae94d.png

7ef83389e8b3fcfbe89243f567825e0e.png

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

290a0dfd4268f8f29cbc288778dda3a3.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

6fc5cd0e66faa500a403767882322ffb.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

8fca8284e56667baf74c67959b998a8c.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

9771202976d67c4a7e7432f6ec9093f2.jpeg

④【自动驾驶之心】全平台矩阵

5b44ae72990174ce2ca82852edf4c170.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值