文章目录
前言
因为主要是对audio到landmarks部分做研究, 所以其余部分不做介绍.
MakeItTalk: Speaker-Aware Talking-Head Animation
method

概述
作者将整个框架称为MakeItTalk, 给定输入音频信号和单个图像, 首先解耦声音信号,将其分为内容编码和说话人身份编码, 利用两个编码后的信息来为图像设置动画. 中间方法是3D landmarks, 说话内容确定landmarks的轮廓, 说话人信息对其进行微调.
Speech Content Animation
-
首先提取音频与说话者无关的内容表示, 作者使用了AUTOVC, 来自论文AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss. In Proc.. AutoVC网络利用LSTM的编码器将声音到一个紧凑的表示 (bottleneck), 经过训练可以丢弃说话者身份但保留内容. 在论文中, 作者通过网络提取了 A ∈ R T × D A \text∈R^{T×D} A∈RT×D的内容信息, T T T 是音频帧的总数, D D D 是内容的维度
-
在每个音频帧t, LSTM模块将 w i n d o w [ t → t + τ ] window[t\text→t+\tau] window[t→t+τ]作为输入, 作者设置 τ \tau τ为18 帧, 在实验中窗口为0.3s. 使用landmarks检测器提取图片的landmarks q q q, q ∈ R 68 × 3 q\text∈R^{68×3} q∈R68×3, LSTM的输出送入MLP, 最终预测位移 Δ q t \Delta q_t

本文介绍了一种名为MakeItTalk的方法,通过解耦音频内容和说话人身份,使用LSTM和MLP进行3D landmarks动画预测。内容编码器提取音频内容,speaker-aware分支结合说话人嵌入调整面部运动。研究了如何捕捉长时依赖和实现单张图像动画。训练部分涉及语音内容和说话人身份的联合学习。
最低0.47元/天 解锁文章

1091

被折叠的 条评论
为什么被折叠?



