1 Wav2Lip介绍
1.1 Wav2Lip概述
2020年,来自印度海德拉巴大学和英国巴斯大学的团队,在ACM MM2020发表了的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》,在文章中,他们提出一个叫做Wav2Lip的AI模型,只需要一段人物视频和一段目标语音,就能够让音频和视频合二为一,人物嘴型与音频完全匹配。
对口型的技术,此前其实已经有很多,甚至在基于深度学习的技术出现之前,就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。但这Wav2Lip 在目前的众多方法中,显示出了绝对优势。现有的其它方法,主要是基于静态图像,来输出与目标语音匹配的唇形同步视频,但对于动态的、在讲话的人物,唇形同步往往效果不佳。而 Wav2Lip 则可以直接将动态的视频,进行唇形转换,输出与目标语音相匹配的视频结果。
论文地址:论文地址
代码地址:https://github.com/Rudrabha/Wav2Lip
1.2 Wav2Lip模型结构


Wav2Lip是一种由印度和英国研究人员提出的AI技术,能将音频与人物视频精确匹配,实现动态唇形同步。该模型基于两阶段的GAN训练,尤其适合处理动态视频,提高了口型同步的准确性。预训练模型和代码已开源,可用于视频内容创作和多语言翻译场景。
最低0.47元/天 解锁文章
4530

被折叠的 条评论
为什么被折叠?



