FaceForensics++: Learning to Detect Manipulated Facial Images
FaceForensics++:是一个面部伪造数据集,它使研究人员能够以有监督的方式训练基于深度学习的方法。数据集包含使用四种最新方法创建的操作,即Face2Face、FaceSwap、DeepFakes和NeuralTextures。
Abstract:
合成图像生成和操纵的快速发展引起人们对其社会影响的巨大担忧。这会导致人们丧失对数字内容的信任,也可能会加剧虚假信息的传播和假新闻的捏造,从而带来更大的伤害。在本文中,我们检查了当前最先进人脸图像操纵技术结果的逼真程度,以及检测它们的困难性——不管是自动检测还是人工检测。具体来说,我们聚焦于 DeepFakes、Face2Face、FaceSwap 这几种最具代表性的人脸操纵方法。我们为每种方法各创建了超过50万张操纵过的图像。由此产生的公开数据集至少比其它同类数据集大了一个数量级,它使我们能够以监督的方式训练数据驱动的伪造图像检测器。我们证明了使用额外的特定领域知识可以改善伪造检测方法,使其准确性达到前所未有的高度,即使在强压缩的情况下同样如此。通过一系列深入实验,我们量化了经典方法、新型深度学习方法和人类观察者之间的性能差异。
1.Introduction
现在,操纵视觉内容已经很普遍,也是数字社会中最重要的话题之一。比如,DeepFakes 展示了如何使用计算机图形学和视觉技术进行视频换脸,进而破坏别人的声誉。人脸是目前视觉内容操纵方法的主要兴趣点,这有很多原因。首先,人脸重建和追踪是计算机视觉中比较成熟的领域,而它正是这些编辑方法的基础。其次,人脸在人类沟通中起核心作用,因为人脸可以强调某个信息,甚至可以传达某个信息。目前的人脸操纵(facial manipulation)方法分为两类:面部表情操纵和面部身份操纵(见图 2)。最著名的面部表情操纵技术之一 Face2Face 来自于 Thies 等人 [48]。它可基于商用硬件,将一个人的面部表情实时迁移至另一个人。后续的研究(如《Synthesizing Obama: learning lip sync from audio》[45])能够基于音频输入序列使人脸动起来。《Bringing portraits to life》[8] 可以编辑图像中的面部表情。
身份操纵是人脸伪造的第二大类。与改变表情不同,身份操纵方法将一个人的脸换到另一个人的面部。因此,这个类别又叫换脸。随着 Snapchat 等消费者级别应用的广泛使用,这类技术变得流行。DeepFakes 也可以换脸,但它使用了深度学习技术。尽管基于简单计算机图形学技术的换脸可以实时运行,但 DeepFakes 需要为每一个视频对进行训练,这非常耗时。
本研究展示了一种方法,可以自动、可靠地检测出此类人脸操纵,且性能大幅超过人类观察者。研究者利用深度学习的近期进展,即使用卷积神经网络(CNN)学习极强图像特征的能力。研究者以监督学习的方式训练了一个神经网络,可以解决人脸伪造检测的问题。为了以监督的方式学习并评估人类观察者的表现,研究者基于 Face2Face、FaceSwap 和 DeepFakes 生成了一个大规模人脸操纵数据集。{基于经典计算机图形学的方法Face2Face[59]和FaceSwap[2]以及基于学习的方法DeepFakes[1]和NeuralTextures[57]。}
- 一个用于在随机压缩下进行标准化比较的面部操作检测的自动基准,包括人类基准,
- 一个全新的大规模人工面部图像数据集,由1000个视频的180多万张图像组成,具有原始(即真实)源和目标地面真实性,以实现监督学习,
- 广泛评估各种场景中最先进的手工制作和学习的伪造检测器,
- 最先进的伪造检测方法,专门针对面部操作
2.RelatedWork
计算机视觉和数字多媒体取证中的纸张交叉点是多个字段。我们将在以下段落中介绍最重要的相关论文
Face Manipulation Methods 人脸操作方法
近二十年来,人们对虚拟人脸操作的兴趣迅速增加。 Zollhofer等人发表了一份全面的最新报告。[68]。特别是Bregler等人。[13]提出了一种基于图像的方法,称为视频重写,自动创建一个人的新视频嘴巴的动作。使用视频人脸替换[20],Dale等人。提出了一种最早的自动人脸交换方法。使用单摄像机视频,他们重建两个面的三维模型,并利用相应的三维几何体将源面扭曲到目标面。加里多等人。[29]提出了一个类似的系统来代替一个演员的脸,同时保留原来的表情。VDub[30]使用高质量的3D面部拍摄技术,真实地改变演员的面部,以匹配配音者的嘴巴动作。Thies等人。[58]首次展示了面部再造的实时表情转移。基于消费者级RGB-D相机,他们重建并跟踪源和目标演员的三维模型。源面的跟踪变形应用于目标面模型。作为最后一步,他们在原始目标视频的基础上混合改变的脸。面2面,由Thies等人提出。[59]是一种先进的实时面部

最低0.47元/天 解锁文章
608





