6、实时反应式统计映射技术解析

最新推荐文章于 2025-10-05 22:30:35 发布

sre5engineer

最新推荐文章于 2025-10-05 22:30:35 发布

阅读量47

点赞数

CC 4.0 BY-SA版权

分类专栏：多模态界面创新：eNTERFACE 2013的突破文章标签：实时反应式统计映射音频-视觉特征提取 GMM模型

本文链接：https://blog.youkuaiyun.com/sre5engineer/article/details/149368597

多模态界面创新：eNTERFACE 2013的突破专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

实时反应式统计映射技术解析

1 音频 - 视觉特征提取与处理

在音频 - 视觉数据处理中，采用了特定的设备和软件来完成相关任务。使用 Primesense Carmine 1.09 相机捕捉近距离面部表情，同时用麦克风采集音频信号。为了提取相关的音频 - 视觉特征，运用了新的方法。
- 面部特征处理 ：借助 Faceshift 软件，在说话者面对相机表演时生成实时 3D 面部网格。对于每一帧，会生成 48 个控制不同面部动作（如下颌张开、眯眼、鼓腮、冷笑等）的参数，这些参数被称为混合形状（blendshapes），可与用户的关联网格一起使用，也可重新定位到现有网格上。
- 音频特征处理 ：实现了 SPTK 工具和 MLSA 滤波器的实时版本，用于提取 MFCC 系数和进行音频合成。

GMM 模型在由两个说话者的录制音频信号和从 Faceshift 生成的相关混合形状组成的数据库上进行离线训练。转换后的混合形状可以发送到 Blender，使用目标说话者的 3D 网格创建实时面部动画。不同软件之间的实时通信在 Max 中完成。GMMmap 是在 Max 中实现的使用 MMSE 方法进行高斯混合模型回归的模块，它利用离线训练并以合适格式保存的模型以及实时提取的音频 - 视觉特征来估计转换后的特征。