前言
- 这是篇从语音生成3d landmarks的文章, 从题目中可以看出来作者提出的是对背景噪音有抵抗力的脸部生成。
贡献如下:
- 生成3维人脸landmarks ,而不是二维的
- 取代了MFCC和它们的时间倒数,而是直接把原始波形输入到网络中
- 提出了新的网络结构, 用卷积来取代LSTM改善原始波形输入的结果
- 提出了一种抗噪的训练方法, 在特征层面上纳入了语音增强的思想,以提高系统对非稳态背景噪声的鲁棒性。
方法
预处理
- face landmark extration
使用dlib提取2d点, 然后使用论文How far are we from solving the 2D&3D face alignment problem中的方法变为3d点
- face landmark alignment
提取的原始坐标是以像素坐标为单位的, 可以位于不同的位置, 比例, 方向上, 这些变化对于训练是不利的, 因为它们和输入语音无关, 为了最小化这些变化, 使用Procrustes analysis来对齐3D landmarks, 这是创建active shape model(ASMs) 和active appearance models(AAMs)的常见做法.
下图第二行是对齐之后的.

- face landmark identity removal
不同说话人有不同的面部形状, 最好能去除身份的变化。
对于每个landmarks 序列, 检测一个包含closed mouth(嘴部闭合)的参考帧, 这种检测是通过thresholding the distance between the upper lip and lower lip coordinates (阈值化上唇和下唇坐标之间的距离)来实现的。
然后计算序列中每帧landmark坐标和这个参考帧的偏差(deviations), 然后把这些偏差施加到所有身份的所有序列的模板face上(impose these deviations onto a template face across all sequences of all identities.)这个模板face是所有identities中闭着嘴的对齐的面部平均值。
下面是3d landmarks 坐标的表示:

身份去除工作可以表示为:

S I R S_{IR} SIR代表身份去除后的face shape, S C M S_{CM} SCM

本文提出了一种新的方法用于从语音生成3D人脸landmarks,重点在于提高系统的噪声鲁棒性。通过预处理步骤,包括facelandmark extraction、alignment和identity removal,处理原始音频和面部数据。网络结构采用1D CNN,引入时间约束以确保帧间平滑过渡,并通过噪声适应性训练提升对非稳态背景噪声的抵抗力。实验表明,这种方法在不同说话人和噪声环境下都能有效生成3D landmarks。
最低0.47元/天 解锁文章
660

被折叠的 条评论
为什么被折叠?



