语音合成与韵律特征在会议语言模型中的应用
捷克文本到手语语音合成器
- 会说话的头部系统
- 面部手势以及嘴唇、舌头和下颚的发音轨迹由会说话的头部子系统通过视觉合成创建。这种视觉合成基于语音单元的拼接。任何以文本形式表示孤立符号的单词或短语,都被处理为连续音素的字符串。
- 嘴唇发音轨迹通过视觉单元选择方法进行拼接,该方法使用语音单元清单和回归树技术,能精确覆盖协同发音效果。
- 语音单元清单中存储了音素的多种实现形式。合成方法假设嘴唇和舌头形状由线性模型描述,一个音素的实现由 3 个嘴唇形状线性分量和 6 个舌头形状线性分量描述。
- 合成算法根据音素上下文信息选择合适的音素候选,最终轨迹通过所选音素实现之间的三次样条插值计算得出。
- 面部轨迹应与相关符号的声学形式的时间对齐,面部手势轨迹的合成基于中性面部表情和 6 种基本面部手势(快乐、愤怒、惊讶、恐惧、悲伤和厌恶)的拼接和组合。
- 面部轨迹与连续手语语音合成的同步
- 手动和非手动组件的同步在连续手语语音合成中至关重要,可确保整体可理解性。不同的口语和手语语速会导致不同步。
- 针对捷克手语设计了有效解决方案,同步方法将基本拼接技术与单词级别的时间延迟处理相结合。
- 具体步骤如下:
- 为每个孤立符号生成动画轨迹和会说话头部系统的轨迹。
- 时间延迟处理确定两条轨迹