论文阅读: 【landmark】MakeItTalk: Speaker-Aware Talking-Head Animation

本文介绍了一种名为MakeItTalk的方法,通过解耦音频内容和说话人身份,使用LSTM和MLP进行3D landmarks动画预测。内容编码器提取音频内容,speaker-aware分支结合说话人嵌入调整面部运动。研究了如何捕捉长时依赖和实现单张图像动画。训练部分涉及语音内容和说话人身份的联合学习。


在这里插入图片描述

前言

因为主要是对audio到landmarks部分做研究, 所以其余部分不做介绍.

MakeItTalk: Speaker-Aware Talking-Head Animation

method

在这里插入图片描述

概述

作者将整个框架称为MakeItTalk, 给定输入音频信号和单个图像, 首先解耦声音信号,将其分为内容编码和说话人身份编码, 利用两个编码后的信息来为图像设置动画. 中间方法是3D landmarks, 说话内容确定landmarks的轮廓, 说话人信息对其进行微调.

Speech Content Animation
  1. 首先提取音频与说话者无关的内容表示, 作者使用了AUTOVC, 来自论文AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss. In Proc.. AutoVC网络利用LSTM的编码器将声音到一个紧凑的表示 (bottleneck), 经过训练可以丢弃说话者身份但保留内容. 在论文中, 作者通过网络提取了 A ∈ R T × D A \text∈R^{T×D} ART×D的内容信息, T T T 是音频帧的总数, D D D 是内容的维度

  2. 在每个音频帧t, LSTM模块将 w i n d o w [ t → t + τ ] window[t\text→t+\tau] window[tt+τ]作为输入, 作者设置 τ \tau τ为18 帧, 在实验中窗口为0.3s. 使用landmarks检测器提取图片的landmarks q q q, q ∈ R 68 × 3 q\text∈R^{68×3} qR68×3, LSTM的输出送入MLP, 最终预测位移 Δ q t \Delta q_t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

live_for_myself

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值