论文阅读:Talking Face Generation by Adversarially Disentangled Audio-Visual Representation

该研究提出了一种名为DAVS的解耦音频-视觉系统,旨在从音视频中提取并解耦语义和身份信息。通过联合多个监督信号,模型能够实现音频或视频驱动的人脸视频生成。数据集包括LRWwith1-of-500diversewordlabels和MS-Celeb-1M,用于训练和验证。模型包含共享的语义编码器和对抗性的身份编码器,确保语义和身份信息的分离。实验结果显示,模型在音频和视频的同步识别任务上表现出色,为跨模态生成提供了新途径。

问题定义

这篇文章着重的是解耦, 通过唇读这个点可以知道视频帧本身有语义信息, 不同的人也肯定有身份信息, 把视频帧的语义和身份信息解耦然后和声音的语义信息拼接, 理论上就可以得到不同的说话人脸视频.

  • 下图中给定身份图片解耦出身份信息, 可以和解耦的声音的语义信息结合生成视频, 也可以和其他的视频提取出的语义信息结合生成视频, 所以在这里的应用是使用音频或者视频驱动图片, 这是最后能达到的效果.

在这里插入图片描述

数据集

  • LRW with 1-of-500 diverse word labels( 这个是有标签的)

  • For each class, there are more than 800 training samples and 50 validation/test samples
    Each sample is a one-second video with the target word spoken

  • MS-Celeb-1M dataset 这个是同一类人然后有不同的照片的数据集, 这里用来训练identity-preserving module, 应该是用在那个person id的判断上

  • 音频是mdcc, 采样率100hz, 应该是取了0.2s, 也就是20个, 输入是12*20

贡献

  1. 通过联合几个监督信息, 可以得到audio-visual 的联合表征
  2. 可以解耦出语义信息和身份信息
  3. 通过利用唇读工作和音画同步工作, 实现了可以从音频或者视频输入驱动图片的方法

想法

  1. 这里并没有语音的身份解耦, 应用的时候没法保证是否正好解耦出语义信息
  2. 但是视频和音频是共用的所以问题不是很大

方法

总览
解耦部分
  • 作者提出的模型叫 Disentangled Audio-Visual System (DAVS), 整个网络可以分成两部分, 一个是 解耦, 一个是最后的生成, 作者的重点在解耦阶段.

  • 下图是总的结构图 , 先注意左边的解耦的部分, 输入是音频与视频, 音频是mfcc, 类似12*20这种维度表示. 解耦时有三个编码器, 对视频有两个编码, 分别对应语义和身份, 音频有一个, 就是语义.

  • 对于视频的语义编码, 想要其只有语义信息, 给定配对的音频帧与视频帧, 它们可以映射到一个公共的空间, 然后通过同一个分类器Cw, 分类器对应的是单词标签, 类似LRW是词构成的数据集, 可以构建一个大的分类器

  • 对于音频的语义编码, 这个部分编码器的权重和视频的语义提取是一致的, 所以可以认为能提取出同样的语义信息而没有身份信息, 因为上面已经对身份信息完成约束了

  • 对于视频的身份编码, 这个是通过一个分类的对抗网络得到的.

  • 总结: 整个架构的流程就是首先从公共表达中分出身份信息和语义信息, 然后可以组合两部分的信息得到新的视频.

  • 对于提取语义信息的部分, 使用了三个监督信息:

  1. 音频和视频的语义信息通过一个权重共享的分类器 C w C_w Cw
  2. 对比损失 L c L_c
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

live_for_myself

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值