On the Detection of Digital Face Manipulation
文章目录
Introduction
随着先进的面部合成和面部处理方法的出现,新型的伪造人脸正在被创造出来,它们在社交媒体中的使用引起了人们的极大关注。借鉴于数字认证表明真实图像在高频域的“指纹”信息使得摄像机认证成为可能,那么在伪造图像中,高频信息也会一定程度上反映伪造算法的一些特性。这使得图像级别的伪造检测成为可能。
由于人脸伪造图像的修改可以是整个图像或者某个区域,本文假设一个经过很好训练的网络能够通过不同区域的空间信息来判定人脸是否被篡改。并且对伪造区域的预测能够帮助模型将关注重点区域信息,从而提升检测效果。
为此,本文提出多任务学习模型,在检测伪造图片的同时,对图像中的伪造区域进行定位。文中采用注意力机制,通过训练学习得到的attention map来定位伪造区域,并且通过伪造区域的强化进一步提升分类结果。
同时,本文首次推出一种多类别伪造人脸数据集Diverse Fake Face Datasets (DFFD)。主要包括:Identity swap, Expression swap, attribute Manipulation,entire synthesized faces四种人脸伪造方式。
Innovation
- 推出首个包含多种人脸伪造类型的数据集。
- 采用multi-task的方式同时对图像进行伪造检测和获取伪造区域。
- 采用Attention机制生成attention map,对待检测图像的伪造区域进行定位。
- 提出逆交叉非包容Inverse Intersection Non- Containment(IINC)度量标准,用于评估attention map与GT的一致性,与现有的度量(IoU等)相比更加稳定准确。
Method
模型整体结构如下图所示,重点在于attention模块的设计。
Attention-based Layer
为保证注意力机制的模块化,本文以网络backbone提取的feature map( F F F)为注意力模块的输入,通过注意力模块生成attention map( M a t t M_{att} Matt),并将attention map与输入feature map的sigmoid点乘获得注意力模块的输出( F ′ F' F′),并以此输出为特征进行最终的伪造分类。如下式所示:
M a t t = Φ ( F ) (1) M_{att} = \Phi(F) \tag{1} Matt=Φ(F)(1)
F ′ = F ⊙ M a t t (2) F' = F \odot M_{att} \tag{2} F′=F⊙Matt(2)
为此,本文提出两中attention map生成机制,分别为Manipulation Appearance Model(MAM)和Direct Regression。
Manipulation Appearance Model
本文假设任何伪造特征图都可以表示为一组特征图原型的线性组合:
M a t t = M ‾ + A ⋅ α (3) M_{att} = \overline{M} + A \cdot \alpha \tag{3} Matt=<