论文阅读:Neural Voice Puppetry: Audio-driven Facial Reenactment

本文介绍了一种利用Audio2ExpressionNet的方法,将音频输入转化为3D面部表情,类似于Wav2lip技术。通过训练,网络能学习到通用的音频表情并转换为特定人物的3D模型参数。训练过程中,网络针对每个人建立个性化的表情空间,保证在不同人之间的通用性。在测试时,选择相应的目标参数即可得到匹配的3D面部表情。此外,文章还讨论了渲染过程,包括从3D模型到RGB图像的转换。

  • 这篇文章就简单记录一下

概览

在这里插入图片描述
这个是方法概览, 输入是视频和音频, 输出是配音之后的视频, 有些像Wav2lip, 语音提取用了deepspeech,框架分为两个部分, 一个是generalized, 一个是specialized, 通用的网络会从音频学到一个所有人共享的audio expression speech, 然后会把得到的audio expression 转变为3D face model 需要的参数。

方法

  • 这里很有意思的一点是我以为这个是可以对所有人生效的, 但是这个更像是一个先train后才能用的网络, 只是train的要求没有很多的数据。
  • 因为每个人说话的风格不一样, 所以建立了针对每个目标序列计算的person-specific expression spaces, 为了确保多个人之间的通用性,作者创建了 a latent audio-expression space,该空间由所有人共享。从这个 audio-expression space,可以映射到person specific expression space,从而实现重演。
  • 上面的怎么理解呢。 我想的就是说这个其实像个分类器, 你映射到一个音频表情的空间, 然后网络选好要映射到目标的哪个人上, 这样得到的3d model 参数就不会说不能用了
Audio2ExpressionNet

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

live_for_myself

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值