论文阅读:You said that?

这篇博客介绍了如何使用Speech2Vid模型将声音直接转化为与音频同步的视频帧。模型通过学习音频和目标脸部的联合嵌入来生成视频,主要由音频编码器、身份编码器和图像解码器组成。训练过程中,使用了VoxCeleb和LRW数据集,并利用预训练的VGG-M网络来提取身份特征。尽管进行了正面化处理,但为了解决对齐问题,还引入了一个去模糊模块。模型通过L1损失进行优化,训练时使用不同时间点的图像作为输入,以生成单帧视频,而不需要严格的时间连续性约束。

[toc】

前言

  • 以往的输出往往都需要借助中间形式, landmarks, 3d models, 这是一个从声音直接映射到视频的方法, 输入是声音和图像, 输出是一段视频。
  • 关键思想是学习到target face 和 speech segment的joint embedding, 这个embedding可以被用于产生和音频同步的帧。

Dataset

整个流程如下:
在这里插入图片描述
这里canonical face就类似正面化的脸部, 如下图:
在这里插入图片描述
这里需要用到一些变换, 因为输入的人脸要变正, 通过放缩, 旋转和平移实现相似变换。这里变换的是鼻子眼睛啥的, 嘴部没有变化。为了保留嘴部运动信息。
在这里插入图片描述

在这里插入图片描述
使用了VoxCeleb和LRW数据集, 用DLIB检测landmarks。 作者还提到SyncNet提供了视频中音频和视觉面部序列的联合嵌入, 可以确定好几个人中是谁在讲话, 同时还可以纠正语音同步错误, 我寻思LRW数据集也不用这么折腾····

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

live_for_myself

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值