1 sadtalker介绍
西安交通大学也开源了人工智能SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。
论文地址:Learning Realistic 3D Motion Coefficients
通过人脸图像和一段语音音频生成说话的头部视频仍然包含许多挑战。即不自然的头部运动、扭曲的表情和身份修改。研究团队认为这些问题主要是因为从耦合的 2D 运动场中学习。另一方面,明确使用 3D 信息也存在表情僵硬和视频不连贯的问题。
为了学习真实的运动系数,研究人员显式地对音频和不同类型的运动系数之间的联系进行单独建模:通过蒸馏系数和3D渲染的脸部,从音频中学习准确的面部表情;通过条件VAE设计PoseVAE来合成不同风格的头部运动。
最后使用生成的三维运动系数被映射到人脸渲染的无监督三维关键点空间,并合成最终视频。音频可以是英文、中文、歌曲,视频里的人物还可以控制眨眼频率!
开源代码地址:github地址
2 模型介绍
“用语音驱动静态照片”技术在数字人创作、视频会议等多个领域都迫切需要,但目前来说这仍然是一项非常有挑战性的任务。之前的工作主要集中在生成“唇部运动”,因为嘴唇的动作与语音之间的关系最强,其他工作也在尝试生成其他相关运动(如头部姿势)的人脸视频,不过生成视频的质量仍然非常不自然,并受到偏好姿势、模糊、身份修改和面部扭曲的限制。另一种流行的方法是基于latent的人脸动画,主要关注在对话式人脸动画中特定类别的运动,同样很难合成高质量的视频,因为虽然三维面部模型中包含高度解耦的表征,可以用来单独学习面部不同位置的运动轨迹,但仍然会生成不准确的表情和不自然的运动序列。
基于上述观察结果,研究人员提出了SadTalker(Stylized Audio-Driven Talking-head),通过隐式三维系数modulation的风格化音频驱动的视频生成系统。

为了实现这一目标,研究人员

SadTalker是一个由西安交通大学开源的人工智能模型,它能通过音频和图片生成逼真的3D头部运动视频。模型利用3DMMs学习真实运动系数,分离表情和头部姿势,减少不确定性。通过ExpNet和PoseVAE分别处理表情和头部运动,结合3D感知面部渲染生成最终视频。该技术在视频质量、头部运动多样性和唇部同步方面表现出色。
最低0.47元/天 解锁文章
5144

被折叠的 条评论
为什么被折叠?



