论文总结:Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert

解决问题:尽管取得了很大的进展,但他们几乎没有关注嘴唇运动的内容,即,语音的视觉可懂度(可以让唇读专家从嘴唇的运动中获取信息)。

在这里插入图片描述
首先会训练一个lip reading expert即唇读专家,基于AV-Hubert的一个唇读专家,会在训练前进行微调后冻结。
在训练的时候,会选择一个T时刻的0.2s的音频送入基于CNN的audio ecoder中。与之对应的T时刻的图像mask嘴唇部分,再与随机选择的身体参考图像合拼在一起,作为基于CNN的video encoder的输入。由生成器生成的图像会与真实的图像之间取L1 Loss,将两者放入鉴别器取一个对比损失。将生成的图像插入替换原来的视频帧,送入已经冻结的唇读专家中,这里会将visual context features与经过audio ecoder后的结果,做一个loss。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值