本文是深度学习相关文章,针对《VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time》的翻译。
摘要
我们介绍了VASA,这是一个在给定单个静态图像和语音音频剪辑的情况下,通过吸引人的视觉情感技能(VAS)生成逼真的会说话的人脸的框架。我们的首款模型VASA-1不仅能够产生与音频完美同步的嘴唇动作,还能够捕捉大量面部细微差别和自然的头部动作,有助于感知真实性和生动性。核心创新包括一个基于扩散的整体面部动力学和头部运动生成模型,该模型在面部潜在空间中工作,以及使用视频开发这种富有表现力和解开纠缠的面部潜在空间。通过广泛的实验,包括对一组新指标的评估,我们表明我们的方法在各个维度上都显著优于以前的方法。我们的方法提供了具有逼真面部和头部动态的高视频质量,还支持以高达40 FPS的帧速率在线生成512×512视频,启动延迟可忽略不计。它为模拟人类对话行为的逼真化身的实时互动铺平了道路。项目网页:https://www.microsoft.com/en-us/research/project/vasa-1/
1 引言
2 相关工作
3 方法
4 实验
5 结论
总之,我们的工作提出了VASA-1,这是一种音频驱动的会说话的人脸生成模型,以其从单个图像和音频输入中高效生成逼真的嘴唇同步、生动的面部表情和自然的头部运动而闻名。它在提供视频质量和性能效率方面显著优于现有方法,在生成的人脸视频中展示了很有前途的视觉情感技能。技术基石是一个创新的整体面部动力学和头部运动生成模型,该模型在一个富有表现力和解开纠缠的面部潜在空间中工作。
VASA-1