基于CLIP 建模用于假图像检测探索与应用

概述

论文地址:https://arxiv.org/pdf/2402.12927
源码地址:https://github.com/sohailahmedkhan/CLIPping-the-Deception

本研究探讨了如何使用 CLIP 这一图像和语言的多模态底层模型来检测伪造图像。这项研究的一个重要创新点是,它建立了一种利用多模态图像和语言信息进行伪造图像检测的方法,而伪造图像检测通常只基于图像数据。特别是,对使用 CLIP 进行伪造检测的各种过渡学习策略进行了比较和研究,从而在泛化性能方面达到了最先进的水平。

研究背景

假图像检测的重要性

近年来,随着对抗生成网络(GAN)和扩散模型等生成模型的显著发展,生成连人类都难以识别的虚假图像已成为可能。另一方面,这种高清晰度的虚假图像可能导致新闻报道的编造,从而带来潜在风险。例如,捏造政府官员的种族主义言论可能会引发国际问题。因此,建立一种检测虚假图像的通用方法是一个重要的社会问题。

假图像检测的技术难题

假图像检测的技术难点在于其生成模型的多样性。这就意味着,面对生成模型日益多样化和复杂化,必须建立一种方法,以稳健和通用的方式来判别假图像。然而,由于人工智能的基础技术–深度学习是一种内插式学习,难以估计位于训练数据集分布之外的区域,这就给假图像的检测带来了技术上的困难。本研究试图通过 CLIP 这一图像和语言的多模态底层模型的丰富表现力来解决这一难题,是假图像检测领域的一个新趋势。

相关研究

CLIP(对比语言-图像预培训)

CLIP 是图像和语言的多模态基础模型,在由图像及其相关文字说明组成的大型数据集上进行了预训练。CLIP 丰富的表现力在假图检测中也很有意义。事实上,CLIP 所获取的特征域空间的可视化显示,真实图像和伪造图像是完全分开的(图 1)。

图 1:使用 t-SNE 的几种模型,真实(红色)和伪造(绿色)图像在特征空间中的分布可视化。

建议的方法:四种过渡学习策略

在本研究中,我们对以下四种将 CLIP 应用于假货检测的过渡学习策略进行了整理、比较和讨论。

图 2. 四种假货检测过渡学习策略。右下角显示了使用每种策略时需要训练的参数数量。

提示调整

我们采用了一种名为 "语境优化"(CoOOp)的方法,以优化输入 CLIP 语言编码器的提示语为原则进行训练。输入提示本身就是训练目标。

适应者

这种方法是在图像编码器中添加一个轻量级线性层,并只针对该层进行训练,而不改变 CLIP 中语言和图像编码器的参数。

微调

CLIP 的所有参数都是在假货检测任务的背景下重新训练的。训练参数的总数是最多的。

线性探测

这种方法只使用 CLIP 中包含的图像编码器,因此可以使用线性层对每幅图像的特征输出进行真假回归。

实验结果

对于每种过渡学习策略,模型都只使用 ProGAN 生成的数据集进行训练,并使用 21 种不同的基于 GAN 的数据集、扩散模型和商业图像生成器测试泛化性能。表 1 列出了所准备的 21 个不同数据集的详细信息。

表 1. 21 个用于验证的不同数据集。

推广性能

作者使用各种数据集测试了训练模型的泛化性能。表 2 显示了每个数据集的准确率比较。与之前的研究相比,结果表明本研究的方法具有优势,它整合了来自图像和语言的多模态信息。特别是,我们还发现提示调整是 CLIP 过渡学习的最佳策略。这些结果表明,利用图像和语言的综合多模态信息进行假冒检测是非常有用的,而仅利用图像数据进行假冒检测则是假冒检测的新趋势。

另一方面,可以确认的是,包括以前的研究在内,在 Face Swap 数据集上的表现不如在其他数据集上准确。换句话说,在生成整个图像的情况下(如 GAN 和扩散模型),准确率可能较高;但在编辑或替换部分图像的情况下(如 Face Swap),准确率可能较低,因此需要进一步讨论。

表 2:使用每个数据集的准确率比较。最佳性能以粗体显示。

训练数据集规模的影响

作者还研究了训练数据集的大小对性能的影响,假设在现实世界中只有数量有限的图像可用。表 3 总结了模型在不同大小的训练数据集情况下的性能。从这些结果中,作者得出结论:当改变训练数据集的大小时,模型的性能没有明显差异。这意味着,本研究中考虑的策略也适用于数据数量有限的实际使用案例。

表 3.训练数据集大小对性能的影响。

作者还进一步讨论和评估了该模型的性能,方法是在一个训练数据集上对该模型进行训练,该数据集只包括每个图像类别中的 32 幅图像(16 幅真实图像/16 幅虚假图像),总共只有 640 幅图像。这一验证也显示了作者所提方法的实用性,其结果是提示调整比其他策略更显著。

表 4. 少量训练模型的性能。

对图像后处理性能的影响

考虑到现实世界中在线共享图像时,对图像进行后期处理是很常见的。人们也普遍认识到,后期处理会对假货检测性能产生重大影响。在此背景下,作者还讨论了对图像进行某些后处理时检测性能的变化。 作为实际的后处理,本文考虑了(1)JPEG 压缩和(2)高斯滤波。图 3 总结了模型对每种变换的鲁棒性。有趣的是,线性探测在此次验证中表现得最为稳健。

图 3:图像后处理对性能的影响。

总结

本研究全面测试了基于 CLIP 的假图检测在各种假图数据集上的鲁棒性。它还比较和研究了将 CLIP 应用于假货检测的四种不同的过渡学习方法,即微调、线性探测、提示调整和适配器网络策略。实验结果表明,CLIP 对多模态图像和语言信息的整合在假货检测中也很有效。这预示着未来假货检测技术的新趋势,以及针对其他类型假货图像(如人脸互换)的假货检测技术的进一步发展。

### CLIP大模型简介 CLIP(Contrastive Language-Image Pre-training)是由 OpenAI 提出的一种多模态模型,旨在通过对比学习的方式将图像和文本映射到一个共享的向量空间中[^1]。这种设计使得 CLIP 能够实现跨模态的理解能力,从而支持多种下游任务。 --- ### CLIP架构概述 CLIP 的核心架构基于两个主要组件:编码器和对比损失函数。具体来说: #### 编码器部分 - **视觉编码器**:用于处理输入的图像数据。通常采用卷积神经网络(CNN),如 ResNet 或 Vision Transformer (ViT),提取图像特征并将其转换为固定长度的向量表示。 - **文本编码器**:负责处理自然语言描述。一般使用的是 Transformer 结构,类似于 BERT 或 GPT 中的语言建模方法,将文本序列转化为语义向量。 这两个编码器分别独立工作,最终会生成对应的嵌入向量[^2]。 #### 对比学习机制 为了使图像和文本能够在同一向量空间中共存,CLIP 使用了一种特殊的对比损失函数——噪声对比估计(Noise Contrastive Estimation, NCE)。该方法通过对大量成对样本的学习,在训练过程中优化目标是让正样本之间的相似度最大化,而负样本间的距离尽可能拉远。这样就实现了不同模态间的一致性表达。 以下是简化版伪代码展示如何计算余弦相似性和应用 softmax 函数完成分类概率分配过程: ```python import torch from torch.nn.functional import normalize def compute_similarity(image_embeddings, text_embeddings): image_embeddings = normalize(image_embeddings, dim=-1) text_embeddings = normalize(text_embeddings, dim=-1) logits_per_image = image_embeddings @ text_embeddings.T * temperature # 温度参数调节分布平滑程度 probs = torch.softmax(logits_per_image, dim=-1) return probs ``` 上述代码片段展示了如何利用标准化后的嵌入向量计算两组数据之间匹配的可能性得分,并进一步得到零样本预测结果的概率分布形式。 --- ### CLIP的特点分析 1. **强大的泛化性能** - 经过大规模无标注数据集上的预训练之后,无需额外微调即可直接应用于各类新领域内的识别任务当中。 2. **高效迁移至新场景的能力** - 借助于其独特的双分支结构以及精心设计的目标函数,即使面对从未见过的新类别集合也能够快速适应并给出合理判断依据。 3. **开放式的应用场景扩展潜力** - 不仅局限于传统计算机视觉范畴下的物体检测、风格迁移等领域;还可以探索更多创新方向比如艺术创作辅助工具开发等方面发挥重要作用. 4. **资源消耗较低** - 尽管属于超大型规模级别别的深度学习框架之一,但由于采用了轻量化策略所以在实际部署环节并不会带来过多硬件负担问题存在. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值