无敌的六边形狗勾战士-优快云博客

原创 Masked Conditional Diffusion Model for Enhancing Deepfake Detection（用于提升深度伪造检测的掩码条件扩散模型）

近期关于深度伪造检测的研究在训练集和测试集来自同一数据集时取得了令人鼓舞的结果。然而，当面对训练过程中未曾见过的伪造样本时，这些模型的检测结果会显著下降。作者提出了新的视角，基于扩散模型的数据增强，并提出并提出了一种掩码条件扩散模型，来增强深度伪造的检测能力这个模型从一个掩码后的干净人脸生成多种伪造图像，促使深度伪造检测模型学习通用且鲁棒的特征表示，而不会过度拟合到特性的伪影。

2025-03-14 20:55:32 917

原创 Multi-attentional Deepfake Detection（多重注意力深度伪造检测）

目前常见的深度伪造检测就是用一个模型去提取真图片和假图片的全部特征然后进行二分类，它并不能关注图片细微的变化。在本文中作者将深度伪造检测当做一个细粒度分类的问题，并且提出了一个新的多注意力深度伪造检测网络。它包含三个部分：1.多个空间注意头：关注不同的局部区域。2.纹理特征增强模块，放大浅层特征中的细微伪影。3.注意力图：聚合低级纹理特征和高级予以特征。作者还引入了一个新的区域独立损失函数和一种注意力引导的的数据增强策略。人脸的伪造十分巧妙，并且只发生在局部区域，他并不易被单注意力结构捕获。

2025-03-13 20:35:42 913

原创 Towards Universal Fake Image Detectors that Generalize Across Generative Models

可见本文的方法的泛化能力是非常不错的，不仅仅在GAN家族中表现良好，在扩散模型和自回归模型中都具有不错的检测泛化能力，在使用最近邻算法的时候，相对于仅仅使用线性层的效果要好上一些，且最近邻算法的参数K对结果的影响不大。作者通过分析发现，现有的分类器在训练过程中主要学习到了特定生成模型的“指纹”（即低层次的图像伪影），而忽略了真实图像的特征，导致分类器在面对未见过生成模型时，倾向于将所有图像分类为真实图像。也就是论文使用的模型是clip的图片编码器，这个图片编码器已经是在大量的图片上面训练好的了。

2025-03-12 16:50:17 907

原创 Scaling Language-Image Pre-training via Masking（通过掩码技术扩展语言-图像预训练）

目前已经出了CLIP模型，但是他们的计算量太大了，作者这里给了一个减少计算量的模型，它能够比CLIP减少很多计算量，并且保持很好的性能。作者利用了bert的思想，在训练过程中随机移除大量图像块，这样的话我们的模型可以学习到更多的知识。最后的FLIP模型达到了，相同数据量更好的效果，相同的效果，更少的数据量。CLIP很好，但是我们的FLIP比他更牛逼。（我们可以在相同的算力情况下，增加更多的数据集）

2025-03-09 16:30:50 882

原创 mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections

本文设计的模型名叫mPLUG,它是的视觉-语言基础模型，用于跨模态理解和生成。目前大多的现有的预训练模型在处理跨膜态对齐时，由于处理的视觉序列中包含长视觉序列，他会带来效率低下与信息不对称问题。为了解决这个问题mPLUG引入了跨膜态跳跃连接，他可以通过跳过一部分视觉处理层来减少计算量，同时保持性能准确。信息不对称：广泛使用的图像文本的预训练数据中的字幕文本通常短并且很抽象，但是在图像中就能得到更加详细的信息。

2025-03-09 16:20:05 854

原创 LEARNING DEEP REPRESENTATIONS BY MUTUAL IN FORMATION ESTIMATION AND MAXIMIZATION（通过互信息估计与最大化来学习深度表征）

作者这篇文章是为了通过最大化输入与深度神经网络编码器输出之间的互信息，来研究表征无监督学习。作者发下将输入局部知识通入目标函数时，可以先祖提高表征对下游任务的实用性。作者提出了深度信息最大化（DIM）：（就是通过对抗性地匹配先验分布，进一步控制表征的特性），DIM比当时流行的无监督学习方法效果要好多的，甚至可以和全监督方法去进行对比。

2025-03-08 21:10:44 570

原创 Distilling the Knowledge in a Neural Network（提炼神经网络中的知识）

在相同数据上训练不同的模型，然后对他们的预测结果取平均值可以显著提高任何机器学习算法的性能。但是当我们使用一整套模型时就会导致模型的计算成本高，无法部署给本地。现在已经有研究证明可以将一个集成模型的知识压缩到单一模型中，这样可以实现轻量的部署。并且证明，这也部署效果非常好。作者做了一个新的模型集成，他由非常大的模型组成，然后再部署到一个小的模型中，这样可以保持很好的性能，并且足够轻量。

2025-02-28 11:27:13 887

原创 CLIP Learning Transferable Visual Models From Natural Language Supervision（从自然语言监督中学习可迁移的视觉模型）

首先目前的SOTA计算机视觉系统通常用来被训练固定的预定对象类别，这大大限制了他们的通用性与适用性。（就是我们传统的图像分类思想就是，我们先去标记猫狗数据集，然后让模型训练，训练之后只能分类猫狗）（举个例子就是我做了一个猫狗分类系统，他只能分类猫狗，我忽然加了一头鸭嘴兽的图片，他无法分辨，我们必须把猪的图片标记出来，我们才知道他是一头猪）。

2025-02-23 20:15:48 834

原创 Attention Bottlenecks for Multimodal Fusion（多模态融合中的注意力瓶颈）

人类的大脑在处理信息时，会自动融合视觉，听觉等多种模态信心来进行信息的处理，但是电脑在处理信息时，他们只是对单一的模态去进行信息的处理，例如他们只根据音频信息（或视频信息）来去使用这种单模态的信息去对模特的最终表征去进行处理。作者提出的是一个基于transformer的架构，该架构在多个层都使用“融合瓶颈”来去进行多个层的模态融合，和传统的自注意力机制不同，作者的模型让不同模态的信息通过瓶颈来实现必要信息的共享，这种方法降低了成本，并且提高了效率。

2025-02-16 14:25:10 1117

原创机器学习的可解释性

原文参考[

2025-01-18 23:25:00 823

原创 MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negati

实体集扩展（ESE）任务的目标是用属于同一语义类的新实体来扩充少量的种子实体。传统的ESE方法基于单模态（即文字模态），在处理现实世界中的复杂实体时面临困难，比如：（1）具有细微语义差异的负实体；（2）同义实体；（3）多义实体；（4）长尾实体。这些挑战促使我们提出了新颖的多模态实体集扩展（MESE），在该任务中，模型整合来自多种模态的信息来表示实体。直观来看，多模态信息对ESE的好处有三个方面：（1）不同模态可以提供互补信息；（2）多模态信息通过共同的视觉属性为同一语义类或实体提供统一信号；

2025-01-18 23:24:27 790

原创 Latent Diffusion Models

隐变量是概率统计中的概念，它表示未被测量或者不方便直接测量的隐藏变量。他是一个未观测到的随机变量，用于解释和建模数据的生成过程。在机器学习和数据表示中，隐空间可以直接将原始数据进行压缩后的低维数据表示形式，可以用于表征数据的核心特征。隐空间是数据的低纬表示空间，用于捕捉和简化数据特征。VAE是Latent Space即为数据编码后空间，一般假设俯冲对角标准高斯分布基于隐空间的计算由于维度降低很多，隐藏可以加载计算速度。隐空间某种视角也可以看做是隐变量的延伸（标量和向量的关系）

2025-01-14 20:56:17 608

原创 DDI组会内容

目前DDPM存在一定的问题就是它采样速度很慢。它是一种新的采样算法。DDIM是去噪隐扩散模型，DDPM是去噪扩散模型。DDPM最大的缺点就是采样需要和加噪的次数相同，比如我加噪1000次，那么我去噪声就要1000次，这样采样速度会很慢。DDPM使用了Mrkov化，但是我们的DDIM就是将我们的DDPM进行去Markov化，让采样步数下降，并且图像生成精度几乎不受影响。（就是我们的DDPM是使用的逆向去噪随机微分方程，但是我们的DDIM就是我们把逆向去噪随机微分方程变成了逆向去噪常微分方程。

2025-01-14 20:55:46 724

原创 ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision（ViLT 无卷积或区域监督的语言视觉转换

大概内容就是视觉与语言预训练（VLP）在各种视觉与语言联合下游任务重表现很牛逼，但是目前他们大部分都以来图像特征提取过程（比如区域监督和卷积结构）。这就导致计算量大，计算效率低。并且这种算法在计算时上限取决于视觉嵌入器与预定义的视觉词表。作者提出了一种新的简单的VLP模型（ViLT）。它在处理视觉信息时，他可以使用无卷积方法。最后结果曾敏它的运行速度非常快。

2025-01-14 20:55:12 1103

原创 DDPM的理解

Diffusion Model是生成模型的一个类，所以他也是包含encoder和decoder两个阶段。他把encoder改名成前向扩散过程，他把decoder改名成反向生成过程。前向扩散过程就是在观测数据中逐步加入噪声，知道观察数据变成高斯分布。反向生成过程就是从一个高斯分布中采样，逐步消除噪声，直到变成清晰的过程。首先DDPM它是一类生成模型，它的输入是标准的高斯噪声，它的输入是图片，DDPM是稳定的并且易训练的DDPM生成过程不是一步到位的，他需要迭代的耗时。

2025-01-08 19:21:07 553

原创 U-net

首先U-net第一次为了解决医学影像问题提出的。它的具体结构如下图：他也是一个encoder-decoder结构，其中encoder是U形左边的部分，decoder是U形右边的部分。左边的叫做，右边的叫做。在这个U形中，每一个长条的矩阵都是一个，每一个箭头都代表一种。最初的U-net操作，它在进行卷积操作时，它的卷积核是3x3的，并且它没有进行padding操作。（因为当时BN操作并没有火起来，所以最初的论文也就没有进行padding操作，所以越操作它的长和宽也就越小）

2025-01-08 19:20:24 799

原创 GAN网络

Generator的优点：它很容易做生成，目前存在的问题是，他只是不断模仿某一个目标，但是他只模仿了目标的表象。它的component是一个一个生成的，他不能关注到大局观。Discriminator优点：它能够很好地考虑到大局观念，能够考虑到大局。缺点：生成图片非常困难，要生成一个图片非常难。把Generator和discriminator组合起来可以达到很好的效果。

2024-12-08 11:07:11 1277

原创 Vision Transformer(ViT): An Image is Worth 16x16 Words 论文精读

transformer在NLP领域很牛逼，但是在目前自注意力与cnn的结合在图像领域无法进行有效拓展，目前仍然是resnet框架的天下。思路作者的思路是直接把标准Transformer 直接应用于图像，尽量不修改内容。所以，作者将一个图像分割成一个patch，并提供这些patch的线性embeddings序列作为一个Transformer 的输入。图像patch的处理方式与NLP应用程序中的标记（单词）的处理方式相同。我们以有监督的方式训练该模型进行图像分类。

2024-11-30 21:29:21 1052

原创《Attention Is All You Need》论文精读

注意力机制其实是源自于人对于外部信息的处理能力。人在处理信息的时候，会将注意力放在需要关注的信息上，对于其他无关的外部信息不在乎，这种处理方式被称为注意力机制。（就是只关注重点信息，不在乎细节信息）首先我们要认识 Query&Key&Value指的是查询的范围，自主提示，即主观意识的特征向量指的是被比对的项，非自主提示，即物体的突出特征信息向量则是代表物体本身的特征向量，通常和Key成对出现（注意力机制是通过Query与Key的注意力汇聚（给定一个Q，计算Q与K的相关性，然后根据Q与K。

2024-11-27 15:06:17 1258

原创 Self-attention

目前我们的Sophisticated input的输入全部可以看出一个向量。假设我们的输入是一排向量，并且输入的大小不一样，且向量数量会改变的时候，我们目前的sophisticated input就不好去进行处理。在实际应用中，例如语言翻译，语音翻译等领域，自注意力都被广泛应用。在处理时，我们输入n个元素，我们的输出不一定只有n个元素，可能有n个，可能有一个，也可能又n丿个。

2024-11-24 17:08:21 788

原创卷积神经网络可视化方法 Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization ICCV 2

主要思想：作者提出了一种为模型做决策产生“视觉解释“的技术，并且命名为Gtad-CAM，(简单来说就是模型凭图像的具体那一部分而判断图片类型的)。改进措施：制作了一种梯度加权类的激活映射，在最后一个卷积层产生一个定位图谱，来找到图片中用于映射的重要区域。（就是把图片划分成多个小方块，找重点小方块。优点：1.适用于各种CNN,比如（1）具有全连接层的CNN（例如VGG），（2）用于结构化输出的CNN（例如captioning），

2024-11-18 08:59:27 830

原创 1X1卷积

比如，一张500 * 500且厚度depth为100 的图片在20个滤波器上做1x1的卷积，那么结果的大小为500×500×20。1×1 卷积核是逐点卷积的基本组成部分，逐点卷积通过多个 1×1 卷积核的组合操作，实现对特征图通道维度的灵活变换和高效计算。在深度可分离卷积等先进的卷积神经网络结构中，1×1 卷积核和逐点卷积共同发挥着重要作用，提高模型的性能和效率。卷积层之后经过激励层，1*1的卷积在前一层的学习表示上添加了非线性激励（ non-linear activation ），提升网络的表达能力；

2024-10-19 22:03:37 303

原创深度可分离卷积

标准卷积，利用若干个多通道卷积核对输入的多通道图像进行处理，输出的特征图既提取了，又提取了。假设输入层为一个大小为64×64像素、3通道彩色图片。经过一个包含4个Filter的卷积层，最终输出4个特征图，且尺寸与输入层相同。此时，卷积层共4个Filter，每个Filter包含了3个Kernel，每个Kernel的大小为3×3。因此，卷积层的参数量为： N s t d = 4 × 3 × 3 × 3 = 108 N_{std} = 4 × 3 × 3 × 3 = 108 Nstd=4×3×3×3=108。

2024-10-19 21:01:06 1600

qq_54991537的博客