文章目录
动机
选择这篇论文的动机:
- 自己在实验过程中遇到了纹理重建的问题
- 在诸多论文的对比实验中,都会看见这篇论文的身影,了解一下也无妨
几个小问题
- 题目中的250Hz是什么?
这是入射光的频率,而光的频率决定光的颜色,具体可学习知乎 - 文章多次提到的 corrective space 是什么?
这一词主要是在 medium level,可以理解为基于 base level 的结果不断进行细化校正。 - 这篇文章如何实现自监督?
在这篇文章中,训练过程中使用得到的信息进行损失计算和回传,而不需要任何ground-truth信息,唯一的输入信息就是二维图像。 - 题目中的 multi-level 又指什么?
具体是 base - medium - final 三个级别。也可以理解为结果的 coarse to fine 不断细化。
解决什么问题
Our novel face reconstruction approach estimates high-quality geometry, skin reflectance and incident illumination from a single image.
这篇论文旨在解决基于单张图像的人脸重建问题,重建结果不仅要保证人脸形状,还要重建出人脸的皮肤纹理(包括重建范围内的头发、胡子等),还考虑了250Hz的入射光情况。
如上图所示,将得到的映射结果投影到原始二维图像上,结果与原始图像相似度很高,不管是左图女性的头发还是右图男性的胡子都可以比较完整的重建出来。
方法
结构:
- regressor 回归器:求解人脸形状 shape、表情 expression、反射 reflectance、光照 illumination 参数
- 同时学习一个参数模型 parametric face model
上述二者是同时进行的,可以理解为,学习一个参数模型是为了表示出三维人脸,而回归器则是用来学习和预测参数模型所需要的那些参数。可见,这篇论文最核心的点在于 Multi-layer face model 部分。
接下来对此网络架构进行分解帮助理解。
Base Level
首先,第一部分是输入单张二维图像,使用CNN对形状、表情、反射(纹理)参数进行预测。将形状和表情参数使用3DMM结合公式(3),(4)进行表示,此时得到的是粗略的重建结果。其中,形状和反射参数均为80维,表情参数为64维。所以此部分模型参数为 ( α , β ) ∈ R 80 + 64 × R 80 (\alpha,\beta)\in R^{80+64}\times R^{80} (α,β)∈R80+64×R80,一共224维。这一部分通过实验也可以知道,重建出来的人脸形状方面可以进行一定的保证,但是纹理并不是很好。
Medium-Scale — Trianable Corrective Model
这一部分主要是加强形状和纹理的参数表达形式,如式子(1),(2)所示。其中, v b v^b vb和 r b