论文解读:动态神经辐射场单目重建4D人脸

该论文提出了一种使用单目相机拍摄的纵向视频重建4D面部的方法,通过动态神经辐射场来表示头部的运动和表情变化。作者结合3D变形模型对面部表情进行跟踪,利用体渲染技术生成逼真的人脸图像。动态神经辐射场是一个基于MLP的隐式表达,能学习到位姿、表情和背景信息。这种方法在不需要特殊捕获设备的情况下,能够从单目输入数据中学习并重建高质量的面部模型,适用于AR和VR等应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文解读

801ec09f639c205a034b781789b9bf57.png

0501d083fcdcae668d4f2ceae6001dff.png

给定一个单目相机拍摄人的纵向视频,作者重建一个动态神经辐射场来表示一个4D面部,它允许我们去合成新颖的头部位姿和面部表情变化。

摘要

数字模型和重建一个说话的人对于大部分应用来说是一个关键一步。尤其是在AR和VR远程应用中,需要获得新颖的视角和头部位姿。相对于当前主流基于模型几何和本身具备的属性,以及基于图像的方法来构建模型。作者引入了基于场景表示网格的头部隐式表达方法。作者用体素渲染方去生成图像,从这个混合表示和证明这个动态神经场景表示能够从单目输入数据中学习,不需要特别的捕获设备。论文主页链接:https://gafniguy.github.io/4D-Facial-Avatars/

方法

先看一下4D面部重建的流程图。给定一个纵向视频和一张没有人的背景图像作为输入,作者应用一个3D变形模型来对面部表情跟踪。在位姿和表情评估基础上,作者用体渲染方式来合成人脸图像。沿着视角光线样本作为输入到动态神经辐射场,这是一个另外条件学习每帧的隐编码。因为背景是固定的,作者设置每条光线的最后采样的颜色到背景图像的对应值上。 

动态神经辐射场

e8877e5d2bd265659270322d379e3458.png

动态神经辐射场

作者此方法参考了NerF,使用一个多层感知机MLP,将说话的头部嵌入到一个规范化的空间内。在这个动态辐射场函数,包括变量位置p,视角方向v以及动态面部表情delta。作者将这些输入到MLP中,输出颜色和透明度值来进行体素渲染。

90f7fd924297cab50f405ac5e60763c2.png

为弥补面部表情和位姿估计中的误差,作者也提供了一个每帧学习到的隐编码r到MLP中。作者使用10张序列图像来计算位置p,用4张序列图像来计算视角方向v。需要注意的是,面部表情向量中只能粗糙展示几何表面改变,而不能对人眼的转动进行表示。

体渲染纵向视频

作者采用一个二阶段的体嵌入方法。这个动态神经辐射场含有两个实例,一个粗糙和一个精细。在粗糙网络模型后使用精细网络,可以获得更重要的样本点。

1c81be4dddbd0ae6f09d35af11ab2729.png

30f0d2b2ad1c0bed848ef0bc4beff545.png

网络架构和训练

动态神经辐射场是使用MLP来表示。作者使用了8层全连接网络,每层含有256个神经元,并后面添加ReLU激活函数。对应的损失函数如下所示,粗糙和精细网络损失的累加和。

8a70bb851470581b8608b6359b116211.png

结论

不同模型和方法互相比较

c7ddf31b0e292309b6834a113dc52673.png

真值、重建结果、改变位姿、改变表情:

7f91e0a38f6e1f0c09ee5d8297d47743.png

每天我们会定期发布最新关于《计算机视觉与图形学》相关论文和知识,请扫描下方二维码关注我们:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值