- 这篇文章就简单记录一下
概览

这个是方法概览, 输入是视频和音频, 输出是配音之后的视频, 有些像Wav2lip, 语音提取用了deepspeech,框架分为两个部分, 一个是generalized, 一个是specialized, 通用的网络会从音频学到一个所有人共享的audio expression speech, 然后会把得到的audio expression 转变为3D face model 需要的参数。
方法
- 这里很有意思的一点是我以为这个是可以对所有人生效的, 但是这个更像是一个先train后才能用的网络, 只是train的要求没有很多的数据。
- 因为每个人说话的风格不一样, 所以建立了针对每个目标序列计算的person-specific expression spaces, 为了确保多个人之间的通用性,作者创建了 a latent audio-expression space,该空间由所有人共享。从这个 audio-expression space,可以映射到person specific expression space,从而实现重演。
- 上面的怎么理解呢。 我想的就是说这个其实像个分类器, 你映射到一个音频表情的空间, 然后网络选好要映射到目标的哪个人上, 这样得到的3d model 参数就不会说不能用了

本文介绍了一种利用Audio2ExpressionNet的方法,将音频输入转化为3D面部表情,类似于Wav2lip技术。通过训练,网络能学习到通用的音频表情并转换为特定人物的3D模型参数。训练过程中,网络针对每个人建立个性化的表情空间,保证在不同人之间的通用性。在测试时,选择相应的目标参数即可得到匹配的3D面部表情。此外,文章还讨论了渲染过程,包括从3D模型到RGB图像的转换。
最低0.47元/天 解锁文章
4882

被折叠的 条评论
为什么被折叠?



