Neural Dubber: Dubbing for Videos According to Scripts

该研究介绍了一种结合唇型和文本信息的实时配音技术,用于影视剧配音。方法基于FastSpeech框架,利用PhoneEncoder和VideoEncoder捕获口型和文本特征,并通过Text-VideoAligner实现精确对齐。实验使用Lip2Wav和LRS2数据集,结果显示音频质量和口型同步度高,解决了Lip2Phone识别错误问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

会议:2021 NIPS
单位:字节 & 清华交叉信息
作者:Chenxu Hu, wangyuxuan

abstract

motivation:给影视剧配音,通过唇型得到音素时间,辅助TTS生成语音;通过人脸识别给spk-id,指导TTS生成不同的音色。要求内容和输入的文本一致,韵律和输入的video一致(只有图像,没有音频)。

related work

  • TTS: text-to-speech,Dubber的输入不仅是text,还有vedio,多模态的任务;
  • Talking Face Generation:wav2lip,给语音(phone+duration),生成2D/3D的人脸+口型
  • Lip to Speech Synthesis:根据video中人物的口型,生成语音。Vid2Speech/Lipper/Lip2Wav模型在做这件事情,但是会有一些字发音错误的问题,主要是因为lip reading的错误率。在Dubber任务中,已经有文本的信息,再辅助上video中口型和phone的对齐,因此会避免lip2phone识别错误的问题。

method

在这里插入图片描述

因为要实时生成配音,采用fastspeech的框架。

  • phone encoder + video encoder(只从视频中裁取唇部的图像输入)

  • Text-Video Aligner:在这里插入图片描述
    H v i d H_{vid} Hvid 实际上控制了attention的系数,精确的控制对齐;

  • Image-based Speaker Embedding Module:预训练的人脸识别模型,将送入的人物图片编码成high-level embedding,然后送入ISE模块一起参与训练,生成ISE。作者认为这种方式可以让模型自己学到ISE和音色之间的相关性(比如性别、年龄)----------video的ISE与对应的音频匹配训练,没有其他用于监督训练的说话人身份信息

Experiments and Results

dataset

  • 单人数据集:Lip2Wav,从youtube中拿到对应句子级别的文本;然后对video按照对应的文本进行切分,会存在部分有语音但是没有人物唇形的数据,删除不用;最后可用的数据一共9h;
  • LRS2数据集:BBC的多人数据集,有video和文本;训练集29h

测试

  • 测试指标:生成音频的质量,以及音频内容和视频口型的一致性;
  • 测试方式:主观评测(亚马逊众包)& SyncNet(开源的检测语音和口型一致)
  • Lip Sync Error Distance (LSE-D) :音频和视频特征的距离,值越小一致性越高;
  • Lip Sync Error Confidence (LSE-C) : 音频和视频特征一致性的置信度,值越高越好;

在这里插入图片描述
在这里插入图片描述

conclusion

如果演员的口型和文本对不上,infer的时候会因为不一致而出错;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值