基于实时反应的隐马尔可夫模型生成与映射技术
1. 数据介绍
1.1 语音数据
对于语音数据,会提供强度和片段持续时间等信息。同时,还会提供表演的详细 3D 几何形状和纹理,以及 3D 网格序列,所有序列和说话者之间在空间和时间上完全匹配。每个说话者会录制 80 个话语,一半采用个人说话风格,一半采用“情绪化”方式,即模仿表演的原始版本。
1.2 步态数据
使用 Mockey 数据库作为风格化步态运动捕捉数据库。该数据库使用 Animazoo 的 IGS - 190 商业惯性运动捕捉套装进行记录,该套装包含 18 个惯性传感器,用于记录对应简化人体骨骼表示的“身体片段”之间的角度。运动捕捉套装的输出是这些用欧拉角参数表示的角度,以及根据角度和腿部片段长度计算出的骨骼根部(臀部)的 3D 位置。
数据库中记录了专业演员模仿不同表达风格的行走,包括骄傲、果断、悲伤、猫步、醉酒、酷炫、害怕、踮脚、沉重、匆忙、男子气概等 11 种风格,每种风格的步数在 33 到 80 步之间。Mockey 动作捕捉会话以 Biovision 层次结构(BVH)格式记录,Animazoo 软件中的骨骼由 20 个身体片段定义,每个数据帧包含 66 个值,其中 3 个片段仅用于使简化骨骼更接近真实骨骼,在运动捕捉中无自由度,因此最终有 57 个值需要分析和建模,其中 54 个关节角度值和 3 个骨骼根部笛卡尔坐标值。由于根部的笛卡尔坐标是根据关节角度后验计算得出的,所以模型中仅考虑 54 个关节角度值。此外,将欧拉角表示转换为指数映射角参数化,以避免奇点。该数据库以每秒 30 帧的速率记录,行走序列根据髋关节角度的变化自动分割为左右步。