Protecting World Leaders Against Deep Fakes(CVPR 2020)
paper PDF
Introduction
深度学习的应用促使了人脸伪造技术的巨大进步。现有AI-合成的人脸伪造方式可以分为以下三种:
- face swap:将视频中出现的人脸替换为其他人的脸,一般对整个面部进行对齐和替换
- lip-sync:使得视频中的人物口型按照既定音频变化,一般仅伪造目标的唇部区域
- puppet-master:使视频中人物做出给定的面部表情,包括头部运动,一般需要对视频中人脸建立3D模型,并对唇部区域进行伪造
对图像和视频进行认证是一个悠久的话题,有大量的文献提出各种各样的方式。但利用人工智能合成是一个相对较新的技术,目前对该方面的认证技术还不够完善。现有的一些研究者试图通过发掘伪造过程中出现图像中存在的pixel-level的“痕迹”进行伪造检测。但是这种认证方式无疑对如图像压缩、resize、噪声等渲染攻击十分脆弱。
本文发现不同人在说话时,面部表情和头部运动存在明显的模式差异。而在上述的三种伪造方式中都对这种模式造成了破坏(即视频中的人脸区域发生了篡改,导致人物说话时面部表情和头部运动的模式与人物身份不相符)。利用这种方式,建立国家领导人个人的soft-biometric模型,