6、实时反应式统计映射技术解析

实时反应式统计映射技术解析

1 音频 - 视觉特征提取与处理

在音频 - 视觉数据处理中,采用了特定的设备和软件来完成相关任务。使用 Primesense Carmine 1.09 相机捕捉近距离面部表情,同时用麦克风采集音频信号。为了提取相关的音频 - 视觉特征,运用了新的方法。
- 面部特征处理 :借助 Faceshift 软件,在说话者面对相机表演时生成实时 3D 面部网格。对于每一帧,会生成 48 个控制不同面部动作(如下颌张开、眯眼、鼓腮、冷笑等)的参数,这些参数被称为混合形状(blendshapes),可与用户的关联网格一起使用,也可重新定位到现有网格上。
- 音频特征处理 :实现了 SPTK 工具和 MLSA 滤波器的实时版本,用于提取 MFCC 系数和进行音频合成。

GMM 模型在由两个说话者的录制音频信号和从 Faceshift 生成的相关混合形状组成的数据库上进行离线训练。转换后的混合形状可以发送到 Blender,使用目标说话者的 3D 网格创建实时面部动画。不同软件之间的实时通信在 Max 中完成。GMMmap 是在 Max 中实现的使用 MMSE 方法进行高斯混合模型回归的模块,它利用离线训练并以合适格式保存的模型以及实时提取的音频 - 视觉特征来估计转换后的特征。

2 实时风格化全身步态重建

在探索风格化步态空间的应用中,当前的运动是通过十二个不同风格化行走模型的线性组合创建的,具体根据 GUI 上为每种风格分配的权重来确定。不过,这种方法需要根据训练数据库中使用的名称明确标记风格化空间,并基于线性插值提出风格之间连续性的概念。但很多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值