AIGC论文阅读——[Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos]
论文地址:https://arxiv.org/abs/2207.11094
代码地址:https://github.com/filby89/spectre
前言(个人总结)
本文最主要的贡献是提出的loss约束【可重点查阅】,基于前人模型的基础上改进,分析不同loss对结果的影响效果,对于AIGC项目的训练很有启发。模型的解释较多,有利于后续自己训练分析。
目前3D重建存在的问题
1、嘴部区域的形状和运动的重建中的伪影通常很严重(它们与语音音频不能很好地匹配)
2、没有利用人类面部固有的丰富动态信息。即使是包括某种动态建模来重建面部视频的少数方法,也没有明确地模拟嘴部运动和清晰语音之间的强相关性。
3、大多数方法使用来自面部对齐方法预测的地标的弱二维监督作为指导形式,虽然这些标志可以对面部形状进行粗略估计,但它们无法准确表示高度变形的嘴部区域的表达细节。人类嘴巴的形状在感知上与语音相关,并且 3D 说话头部的真实感与说出的句子紧密相关。因此,3D 模型在发出双唇辅音(即 /m/、/p/ 和 /b/)时不会闭上嘴唇,或者在说出圆唇元音时不会嘴唇变圆(例如 /o/ /u/) 的感知自然度较差。
解决方法
本文目的
为了克服上述限制,提出了一种用于 3D 嘴巴表情的视觉语音感知感知重建的方法。对视频中说话的人进行准确的 3D 重建,保留人类认为与语音相对应的嘴部表情和动作。
方案
1、提出了第一种用于 3D 嘴巴表情的视觉语音感知感知重建的方法。
2、提出“唇读”损失,该损失指导拟合过程,以便从 3D 重建的说话头部引发的感知类似于原始视频片段的感知。与传统地标损失,甚至直接 3D 监督相比,唇读损失更适合嘴部运动的 3D 重建。此外,所设计的方法不依赖于任何文本转录或相应的音频,使其非常适合在未标记的数据集中进行训练。
3、进行了广泛的客观和主观(用户研究)评估,证明重建的头部的感知显着增加。我们还建议使用各种唇读指标作为重建 3D 头部中人类语音感知的客观评估。
设计方案
基于先前的两个框架
DECA:https://arxiv.org/pdf/2012.04012
EMOCA :https://arxiv.org/pdf/2204.11312
基于最先进的DECA框架,采用了DECA论文中的符号。给定一个输入图像I,一个粗编码器(一个ResNet50 CNN)共同预测识别参数β、颈部姿势和下巴θ、表达参数ψ、反照率α、光照I和相机(缩放和转换)c。(这些参数是FLAME 3D人脸