Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读

华为研究团队提出MetaTalk新方法,结合AudioDVP和Wav2lip优势,仅用3分钟视频就能生成4K唇形同步虚拟人像,解决了现有模型对大量训练数据和低清晰度视频的问题。MetaTalk通过3D重建和神经渲染技术实现了高效且逼真的虚拟说话人生成。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 相关链接

中文介绍链接:

语音语义创新Lab_News_聚焦虚拟说话人生成技术,华为云论文被人工智能语音领域顶级会议ICASSP2022接收

论文链接:

Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking Face With High Definition | IEEE Conference Publication | IEEE Xplore

2. 简介

语音驱动虚拟说话人模型,旨在生成与输入语音能够口型匹配的任意目标人像虚拟说话人视频。目前业界开发出了一些先进的虚拟说话人生成模型,包括语音驱动的3D虚拟人视频生成模型(AudioDVP) 和2D语音-口型生成模型(Wav2lip)。华为研究团队经过多次实验,发现AudioDVP仅有在数十小时大量训练数据下才能具有良好唇音同步效果,对应目标人物模特的训练数据录制成本太高,一旦有更换模特的需求,则需要大量的人力物力来做重新准备。另外,Wav2lip虽然在超过30小时的视频数据下构建了预训练模型,具有较好的泛化能力,但是生成的视频清晰度较低,无法满足应用需求。

基于这些观察,如下图所示,作者提出了一种新的虚拟说话人的生成方法Meta Talk,融合了AudioDVP和Wav2lip各自的优点,通过自适应裁剪模块、3D人脸模型重建和渲染等模块相互配合,突破了仅需3分钟的原始视频,即可实现生成唇形同步的4K清晰度且达到真实照片逼真程度的虚拟说话人视频的技术。

3. 模型原理

1. 训练阶段

(1) 使用AudioDVP中的3D重建模块,训练3D人脸重建模型,待训练完毕后,将其作为模块使用,可以从人脸图像中获取表情系数参数。

(2) 使用Wav2Lip与训练好的3D重建模块,制作A2E训练标签对,训练A2E模型

(3) 使用3D重建模型预测3DMM参数,对原始训练视频进行预测,并通过3D顶点渲染得到3D人脸面具,使用人脸Mask,得到3D半脸面具(脸颊下部分)

(4) 使用3D半脸面具作为输入,原始视频人脸下半脸颊部分(Mask遮罩区域)作为输出,训练Nerual Renderer模型(类似于Pixel2Pixel网络)

2. 测试阶段

(1) 输入测试Audio通过A2E模型得到3DMM expression系数

(2) 输入原始训练视频,通过3D重建模型得到纹理、形状、光照、姿态等3DMM系数

(3) 合并(1)(2)系数,经过3D顶点渲染得到3D人脸面具,并且通过Mask遮罩仅使用人脸面具的脸颊部分

(4) 使用Neural Renderer网络将3D半脸面具转化为真实的人脸下半部分,并且根据Mask形式贴合到原始训练视频

4. 个人解读

4.1 优点

1. 对训练的视频时长及要求可以进一步降低

在这里训练视频仅仅起到了训练3D重建模型及3DFace-->realFace模型的作用,Audio2Expression模型的数据是由LRS2提供的。论文中提及仅需要3分钟训练视频即可有比较好的表现效果。

2. 使用Wav2Lip优化音画同步效果

作者认为,Wav2Lip具有比较好的音画同步效果,因此使用它生成低清真实人脸,再使用3D人脸重建模块获取的Expression也与Audio具有比较好的同步效果,作者将它们作为标签对,训练A2E模型。在消融实验中,论文中也展示了wav2lip获取伪标签的方式,对音画同步的提升效果。

4.2 存在问题

1. 训练步骤繁琐

针对每一个不同人,论文都需要重新训练人脸3D重建模型,都需要使用Wav2lip获取LRS2 Audio对应的Expression标签,然后重新训练A2E模块,再训练3Dface--->realFace(pixel2pixel),训练繁琐且都需要专人专训练。

2. 3D重建模型训练与低清图像质量不匹配

Wav2Lip生成图像尺寸为96x96,而AudioDVP中的3D重建模型输入尺寸为256x256,因此使用之获取wav2lip生成图像的expression时,需对之进行上采样与插值,不可避免引入模糊,存在重建expression的问题。这里后续可以考虑使用微软官方在大规模数据上训练的3D重建模型。

5. 参考

wav2lip_train | Kaggle

语音语义创新Lab_News_聚焦虚拟说话人生成技术,华为云论文被人工智能语音领域顶级会议ICASSP2022接收

[2008.10010] A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

Photorealistic Audio-driven Video Portraits | Christian Richardt

### Wav2Lip项目概述 Wav2Lip 是一种用于唇形同步的深度学习模型,能够将音频与面部视频精确匹配,使人物嘴唇动作与声音完美契合。该技术基于卷积神经网络 (CNN),通过训练大量带标注的数据集来实现高精度的唇语合成效果[^1]。 ### 毕业设计实现方案 对于采用 Wav2Lip 的毕业设计方案而言,可以围绕以下几个方面展开: #### 数据准备 收集并整理高质量的人脸视频片段及其对应的干净语音文件作为训练数据源。这些素材应当尽可能覆盖不同性别、年龄以及口音特征的人物样本,以便提高泛化能力。 #### 环境搭建 安装 Python 和必要的依赖库如 PyTorch 或 TensorFlow 来构建和运行模型;同时还需要配置好 GPU 加速环境以加快计算速度。 ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113/ ``` #### 模型架构理解 深入研究 Wav2Lip 所使用的具体算法框架,包括但不限于生成对抗网络 GANs 结构下的判别器 Discriminator 设计思路,以及如何利用预训练权重初始化等方式提升收敛效率。 #### 训练过程优化 调整超参数设置,比如批次大小 Batch Size、初始学习率 Learning Rate 及其衰减策略等,并尝试引入正则项 Regularization 抑制过拟合现象的发生。 #### 测试评估指标定义 制定合理的性能评测标准体系,例如帧间误差 Frame Error Rate, FER)、视觉质量评分 MOS(mean opinion score) 等定量分析手段,确保最终成果具备良好的用户体验感。 ### 资料推荐 - **论文**: Prajwal Vijayan et al., “Wav2lip: Robust Lip Sync with Varying Speaking Rates and Expressions,” arXiv preprint arXiv:2008.10010v1, Aug 2020. - **开源代码仓库**: GitHub 上有多个版本可供参考,其中最著名的当属 Adrian Bulat 维护的那个分支. - **教程资源**: YouTube 平台上有不少开发者分享了详细的实操指南,涵盖了从零开始入门到高级技巧进阶的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值