58、深度伪造检测的混合模型

深度伪造检测的混合模型

1. 引言

随着科技的不断进步和人工智能领域的重大突破,我们进入了一个数字图像、视频或音频都能按需被篡改和伪造的时代,“深度伪造”应运而生。深度伪造是一种借助深度学习方法和算法,能够高度精准地伪造高质量图像和视频的技术。它可以将一个人替换到图像或视频中,让其说出或做出从未做过的事情。

早在1865年,就有了深度伪造的首次尝试,当时美国第16任总统亚伯拉罕·林肯的一张标志性肖像被与另一位政治家约翰·卡尔霍恩的形象进行了合成。此后,图像和视频篡改的概念逐渐流行起来,并在Reddit等平台上发展出了合成媒体应用,一些在线社区开始分享深度伪造的名人、政治家和其他重要人物的内容。如今,深度伪造变得越来越普遍,虚假信息的传播也十分猖獗。经过不断训练的模型能够创建出高度逼真的深度伪造视频,这对经济和国家安全产生了巨大影响。最初,深度伪造视频的目标主要是公众人物,如名人和政治家,因为他们的图像和视频在互联网上很容易获取。但根据相关报道,如今被篡改图像和视频的目标不再局限于政府领导人和演员,深度伪造已成为每个人都面临的重大担忧,它助长了事实相对主义,甚至可能被用来帮助公众人物掩盖不道德行为,对个人、社会、机构和民主制度的形象造成潜在损害。

2. 深度伪造的创建

要制作深度伪造的图像或视频,首先需要使用真实的图像或视频对模型进行训练,让模型了解在不同角度和光照条件下“真实”的样子。然后,将模型与计算机图形技术相结合,将某人的相似形象叠加到图像或视频上,从而创建出虚假的内容。以下是两种最常用的深度伪造创建模型:
- 卷积神经网络(CNN) :这是一种深度学习算法,它以各种类别的图像作为输入,通过检测特征之间的差异来区分不同的图像。CNN利用不同层的预测结果生成一个概率得分向量,以表示特定特征的可能性。该网络相对需要较少的预处理,主要由卷积工具层和全连接层两个主要部分组成。
- 生成对抗网络(GAN) :这是深度学习领域中一种强大的算法,采用无监督学习方式进行训练。GAN由生成器和判别器两个机器学习模型组成。生成器负责创建虚假视频,而判别器则用于区分真实视频和虚假视频。每次判别器能够检测或分类出输入数据为虚假时,它会向生成器提示数据可被检测的特征。随着判别器检测虚假数据的能力不断提高,生成器也会相应地得到改进。

此外,还开发了其他一些使用深度学习算法创建深度伪造视频的方法,如循环神经网络(RNN)、长短期记忆网络(LSTM)和混合方法。这些模型最初处理的是经过数据处理后提取的帧级特征。混合方法可以描述为将两种算法组合成一组编码器 - 解码器,用于图像或视频的伪造。

3. 背景工作

在深度伪造检测领域,已经有许多研究和方法被提出:
- Younus等人 :对用于区分互联网上每日上传的真实视频和虚假视频的方法进行了简要回顾,背景比较、时间模式分析、眨眼检测、面部伪影、微观分析、眨眼检测和姿态估计等都是高效且快速的方法。
- Nguyen等人 :对用于创建深度伪造的算法以及检测深度伪造的方法进行了调查,通过回顾深度伪造的背景和最先进的检测方法,为使用浅层和深层分类器处理图像和视频的深度伪造问题提供了全面的概述,并促进了新的、更强大的方法的开发。
- Chan等人 :提出了一种改进的VGG网络,名为NA - VGG,用于检测深度伪造的面部图像。该方法基于图像噪声和图像增强,首先使用SRM滤波器层突出显示图像噪声特征,然后对图像噪声图进行增强以削弱面部特征,最后将增强后的噪声图像输入网络进行训练和判断图像是否被伪造,并在Celeb - DF数据集上进行了实验。
- Pan等人 :提出了两种深度学习方法,即Xception和MobileNet,用于自动检测深度伪造视频。这些模型使用来自Face2Face、FaceSwap和神经纹理平台的数据集,选择每个被篡改视频共有的特征。
- Rana等人 :提出了一种名为DeepFake Stack的深度集成学习技术,同时也开启了利用区块链技术检测深度伪造的可能性。
- Liang等人 :提出了一种名为SDHF的新颖框架方法,通过合成三个层次的特征来检测深度伪造,该方法使用2D CNN模型进行特征提取,并使用MBConv聚合器提取剪辑级和视频级特征,以进行全面决策。
- Jung等人 :建议利用不同的眨眼模式来检测深度伪造,眨眼模式取决于个人的性别、年龄和认知行为。通过比较和分析眨眼次数、平均眨眼周期和眨眼持续时间,异常的眨眼模式可以作为检测的关键特征。结合Nguyen等人提出的眉毛匹配方法,能够显著提高检测器的准确性,还可以使用LightCNN、ResNet、DenseNet、SqueezeNet等算法来实现。
- Zhao等人 :提出通过理解动态唇部运动来检测深度伪造视频,从基本的CNN到复杂的SA - DTH网络等模型都可以用于提取主体的说话习惯信息,从而增加发现高效训练和创建的深度伪造视频的机会。
- Feng等人和Patel等人 :提出使用人脸识别来检测修改或深度伪造的图像和视频,这些方法首先识别面部,然后判断面部的角度,最后处理这些面部以识别区分合成视频和真实视频的帧级特征。Kharbat等人的研究表明,可以使用支持向量机、方向梯度直方图、定向快速旋转BRIEF、二进制鲁棒不变可扩展关键点、KAZE、加速稳健特征和加速分段测试特征等技术来提取帧级特征。

综上所述,已经有许多方法可用于深度伪造视频的检测。

4. 提出模型的方法

4.1 数据预处理

所提出的深度伪造检测模型的原型设计采用了两个主要模块:预处理和深度伪造检测,同时还包含其他子模块。该模型使用的数据集来自多个来源,如Kaggle上的深度伪造检测挑战数据集、Celeb - DF数据集和Face Forensics++数据集。数据收集完成后,需要进行预处理以便进一步处理,具体步骤如下:
1. 统计数据集中视频的数量,并检查是否存在损坏的视频。如果发现有损坏的视频,则将其丢弃。
2. 将干净的视频数据集拆分为帧。
3. 设置一个阈值,丢弃超过一定数量的帧,以降低模型的计算负担。
4. 使用人脸识别算法检测只包含面部的帧,然后裁剪视频,使其只包含面部帧。在GPU上丢弃所有不包含面部的帧,避免模型处理不必要的帧,从而减少计算负担。
5. 计算所有帧的平均值,并围绕这些帧的平均值创建一个新的、经过处理的仅包含面部的数据集,以确保所有处理后的视频具有一致性。

以下是数据预处理前后的对比表格:
| 指标 | 处理前 | 处理后 |
| ---- | ---- | ---- |
| 时间(秒) | 13 | 10 |
| 帧率(帧/秒) | 30 | 15 |
| 分辨率 | 1920 * 1080 | 112 * 112 |

4.2 模型训练

模型的训练按顺序进行,具体如下:
1. 将可用的数据集分为训练数据集和测试数据集,比例为7:3,即训练数据集占70%,测试数据集占30%。训练数据集用于训练模型,让模型从预处理后的数据中找到模式并学习;测试数据集用于验证模型的性能。
2. 模型的第一层引入了ResNet - 50,它能够从输入数据集中学习4D特征,用于帧级特征提取。在这个过程中,冻结所有现有的层,只更新新层中的参数。
3. 添加一个顺序层,这是在Keras中构建模型的方式。
4. 添加一个长短期记忆(LSTM)层,用于减少模型的长期依赖性,即决定哪些特征部分需要学习,哪些可以忽略。
5. 使用泄漏修正线性单元(ReLu)作为激活函数。
6. 为模型添加一个线性层,负责创建具有特定输入数量的单层前馈网络。
7. 应用一个adaptiveAvgPool2d层,对由多个输入平面组成的输入信号进行2D自适应平均池化。
8. 绘制一个关于训练轮数(epoch)与准确率的图表以及一个混淆矩阵,以帮助理解模型的学习情况和学习到的异常情况。当模型达到所需的准确率后,将训练好的模型保存起来,以便对新数据进行分类。

4.3 模型分类

分类过程如下:
1. 将需要检查的视频调整为仅包含面部的帧,并加载到分类模型中。由于模型是基于面部特征进行分类训练的,因此新输入的视频必须进行调整。
2. 使用统计估计的概念,将帧相互比较,以识别是否存在篡改。将学习到的帧与新帧进行比较,检测面部特征的异常变化。
3. 使用热图绘制用于分类的帧,热图可以帮助了解模型关注的面部部分。热图是一种发现数据共线性的方法,能够确定哪些行或列应该或不应该包含在结果中。
4. 最后,将新视频分类为真实或虚假。

以下是模型训练和分类过程的mermaid流程图:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;

    A(收集数据集):::process --> B(数据预处理):::process
    B --> C(划分训练集和测试集):::process
    C --> D(模型训练):::process
    D --> E(保存训练好的模型):::process
    F(待检测视频):::process --> G(调整视频格式):::process
    G --> H(帧比较):::process
    H --> I(热图分析):::process
    I --> J(分类结果):::process
    E --> J

5. 实验结果与分析

5.1 预处理效果分析

对提出的混合模型(HMDD)在不同层面的效率进行了测试,并分析了预处理阶段的时间、帧率和分辨率。实验发现,在预处理之前,很难识别视频中的差异或虚假内容,但预处理后,处理时间和帧率都有所降低,分辨率也因调整为仅包含面部的帧而发生了变化。具体数据如下表所示:
| 指标 | 处理前 | 处理后 |
| ---- | ---- | ---- |
| 时间(秒) | 13 | 10 |
| 帧率(帧/秒) | 30 | 15 |
| 分辨率 | 1920 * 1080 | 112 * 112 |

5.2 训练模型性能评估

绘制了训练轮数(epoch)与准确率的图表,以比较模型在训练阶段和测试阶段的性能。训练轮数设置为30次,学习率为0.00001。训练准确率达到了91%,测试准确率为86.469%。

5.3 分类模型性能评估

使用混淆矩阵对分类模型的性能进行评估。在使用HMDD进行分析的数据集里,模型将568个虚假视频正确识别为虚假(真阳性),将544个真实视频正确预测为真实(真阴性)。而将虚假视频预测为真实的假阳性数量为70,将真实视频预测为虚假的假阴性数量为104。

5.4 热图分析

使用热图来表示分类模型的性能。热图基于帧级面部特征,对作为数据集的图像进行分类。模型用于分类的选定特征用红色表示,被忽略的特征用蓝色表示。模型会考虑面部的所有特征,无论面部处于何种角度,以识别篡改或操纵的迹象,而不限于面部的特定区域。例如,在某些情况下,视频被分类为虚假时,模型会使用靠近主体嘴巴的特征来检测视频中的操纵;而当视频被分类为真实时,可能会使用靠近主体额头的特征来识别是否存在操纵。为了进一步评估模型的性能,创建了一个全新的视频数据集,并将其引入模型。实验结果表明,模型能够很好地处理新引入的视频,并准确地进行分类。当视频被分类为真实时,热图显示模型关注主体嘴巴附近的特征;当同一视频被数字篡改后再次引入模型时,模型能够将其分类为虚假,并同样使用主体嘴巴附近的特征来识别操纵。

6. 结论

深度伪造是一种逼真的视频伪造技术,它可以让任何人在记录中说出或做出虚构的事情,对个人、社会、企业和民主制度构成潜在威胁。由于这些合成内容几乎完美无缺,很难通过观察来判断其真实性,因此需要一种工具来区分虚假视频和真实视频。对复杂和精确伪造的检测引发了该领域的探索和研究,人们提出并评估了不同的策略、方法和想法,以找到有效应对深度伪造的方法。

通过提出的混合模型(HMDD),利用简单的深度学习算法,可以识别和指出视频中的帧级操纵。该模型在每一帧中都能够针对显著的面部特征,无论面部在帧中的角度如何,通过ResNet进行特征提取,并使用LSTM来优先处理目标特征。基于这些分析,可以得出结论:通过组合数据集并借助简单的混合模型,能够在识别篡改方面取得更好的性能,效率达到了86.469%。

7. 方法的优势与特点

7.1 特征综合利用

HMDD 模型能够综合利用多种特征进行深度伪造检测。在特征提取阶段,ResNet - 50 可以学习到 4D 特征,从多个维度捕捉图像信息。而 LSTM 层则可以处理序列信息,减少模型的长期依赖性,对帧级特征进行有效的筛选和处理。这种综合利用不同类型特征的方式,使得模型能够更全面地分析视频中的信息,提高检测的准确性。

7.2 适应性强

模型在训练和分类过程中,不局限于面部的特定区域,能够考虑面部的所有特征,无论面部处于何种角度。在热图分析中可以看到,无论是嘴巴附近的特征还是额头附近的特征,模型都能根据实际情况进行利用,以识别视频中的篡改或操纵迹象。这使得模型具有很强的适应性,能够应对不同场景和角度下的深度伪造视频检测。

7.3 计算效率优化

在数据预处理阶段,通过丢弃损坏的视频、设置帧阈值、裁剪只包含面部的帧等操作,大大降低了模型的计算负担。从预处理前后的对比数据可以看出,处理时间从 13 秒减少到 10 秒,帧率从 30 帧/秒降低到 15 帧/秒,分辨率也从 1920 * 1080 调整为 112 * 112。这些优化措施在保证检测准确性的同时,提高了模型的计算效率。

8. 与其他方法的对比

为了更清楚地了解 HMDD 模型的性能,将其与其他常见的深度伪造检测方法进行对比,如下表所示:
| 方法 | 特点 | 准确率 | 计算复杂度 |
| ---- | ---- | ---- | ---- |
| HMDD | 结合 ResNet 和 LSTM,综合利用多种特征,适应性强 | 86.469% | 经过预处理优化,计算负担相对较低 |
| NA - VGG | 基于改进的 VGG 网络,利用图像噪声和增强技术 | 未提及 | 未提及 |
| Xception 和 MobileNet | 深度学习方法,选择特定数据集的共同特征 | 未提及 | 未提及 |
| DeepFake Stack | 深度集成学习技术 | 未提及 | 未提及 |

从对比中可以看出,HMDD 模型在准确率方面表现较好,同时通过有效的预处理措施优化了计算复杂度。

9. 应用场景与前景

9.1 社交媒体平台

在社交媒体上,深度伪造视频的传播可能会造成虚假信息的泛滥,影响公众的认知和判断。HMDD 模型可以应用于社交媒体平台,对上传的视频进行实时检测,及时发现和阻止深度伪造视频的传播,维护平台的信息真实性和公信力。

9.2 新闻媒体行业

新闻媒体需要保证所报道内容的真实性和可靠性。深度伪造技术可能会被用于制造虚假新闻,误导公众。HMDD 模型可以帮助新闻媒体机构在发布视频内容之前进行检测,避免虚假新闻的传播,保障新闻的质量和公信力。

9.3 司法领域

在司法过程中,视频证据的真实性至关重要。深度伪造技术可能会被用于伪造视频证据,干扰司法公正。HMDD 模型可以为司法部门提供一种有效的工具,对涉及案件的视频证据进行检测,确保证据的真实性和可靠性。

随着深度伪造技术的不断发展,其手段和方法也会越来越复杂。未来,HMDD 模型可以通过不断优化和改进,结合更多的特征和算法,进一步提高检测的准确性和效率。同时,还可以与其他技术如区块链等相结合,构建更加完善的深度伪造检测体系。

10. 总结与展望

深度伪造技术的出现给社会带来了诸多挑战,对个人、社会、企业和民主制度都构成了潜在威胁。为了应对这一问题,人们提出了各种深度伪造检测方法。本文介绍的混合模型(HMDD)通过结合 ResNet 和 LSTM 等简单的深度学习算法,在识别视频中的帧级操纵方面取得了较好的效果,准确率达到了 86.469%。

该模型具有特征综合利用、适应性强、计算效率优化等优势,在社交媒体平台、新闻媒体行业、司法领域等都有广泛的应用前景。然而,深度伪造技术也在不断发展,未来的深度伪造可能会更加难以检测。因此,需要不断对模型进行优化和改进,探索更多有效的特征和算法,以应对日益复杂的深度伪造挑战。同时,加强国际合作和法规制定,共同打击深度伪造行为,维护社会的信息安全和稳定。

以下是 HMDD 模型应用流程的 mermaid 流程图:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;

    A(数据收集):::process --> B(数据预处理):::process
    B --> C(模型训练):::process
    C --> D(保存模型):::process
    E(待检测视频):::process --> F(视频格式调整):::process
    F --> G(模型分类):::process
    D --> G
    G --> H(输出检测结果):::process

通过以上的流程,HMDD 模型可以有效地对深度伪造视频进行检测,为保障信息安全提供有力支持。

提供了基于BP(Back Propagation)神经网络结合PID(比例-积分-微分)控制策略的Simulink仿真模型。该模型旨在实现对杨艺所著论文《基于S函数的BP神经网络PID控制器及Simulink仿真》中的理论进行实践验证。在Matlab 2016b环境下开发,经过测试,确保能够正常运行,适合学习和研究神经网络在控制系统中的应用。 特点 集成BP神经网络:模型中集成了BP神经网络用于提升PID控制器的性能,使之能更好地适应复杂控制环境。 PID控制优化:利用神经网络的自学习能力,对传统的PID控制算法进行了智能调整,提高控制精度和稳定性。 S函数应用:展示了如何在Simulink中通过S函数嵌入MATLAB代码,实现BP神经网络的定制化逻辑。 兼容性说明:虽然开发于Matlab 2016b,但理论上兼容后续版本,可能会需要调整少量配置以适配不同版本的Matlab。 使用指南 环境要求:确保你的电脑上安装有Matlab 2016b或更高版本。 模型加载: 下载本仓库到本地。 在Matlab中打开.slx文件。 运行仿真: 调整模型参数前,请先熟悉各模块功能和输入输出设置。 运行整个模型,观察控制效果。 参数调整: 用户可以自由调节神经网络的层数、节点数以及PID控制器的参数,探索不同的控制性能。 学习和修改: 通过阅读模型中的注释和查阅相关文献,加深对BP神经网络与PID控制结合的理解。 如需修改S函数内的MATLAB代码,建议有一定的MATLAB编程基础。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值