18、无序语音的规则合成-优快云博客

本文链接：https://blog.youkuaiyun.com/a3b4c5/article/details/155062158

无序语音的规则合成

1. 引言

无序语音指的是在音高、响度或音色方面被认为异常的声音，通常是由喉部病变、喉部、肺部或偶尔的消化功能障碍（如反流）引起的。语音合成在这里是指使用模型对语音进行数值模拟，使其音色模仿无序语音的特征。

在语音和嗓音的临床评估中，感知评估起着核心作用，因为口语的交流功能默认依赖听觉通道。在连续语音中，声音（即通过声门处的脉动气流产生的声音）占据中心位置，大约一半的语音是有声的。此外，声音在韵律（如语调）、副语言交流（如说话者的态度）和超语言信息（如说话者的身份）中也起着重要作用。因此，失去声音的说话者可能被认为无法进行口头交流。目前，语音和嗓音评估中一个尚未解决的主要问题是，人们对感知到的音色与通过仪器获取的数据之间的联系了解甚少。

过去，合成语音刺激在研究语音的语音身份感知方面发挥了重要作用，但在研究语音音色方面的作用较小。原因之一是声门源通常通过曲线的分段拼接来建模，这可能需要观察到的语音源信号进行拟合，因此无法逐样本更新源参数，并且在曲线连接点处难以实现连续性和光滑性约束。此外，曲线模型也难以考虑声源 - 声道的相互作用。

波形整形是一种解决这些问题的方法，它将输入信号的幅度映射到输出信号的幅度。输入信号通常是窄带信号，其瞬时频率可以用傅里叶频率有意义地解释。输入信号和输出信号的周期长度相同，输出信号可以是所需的声门面积、流量或其相对于相位的导数。

现有的波形整形在声门面积或气流率建模中的应用基于一个模板周期，该模板周期通过其傅里叶级数转换为多项式波形整形器。输出的周期长度通过驱动谐波的瞬时频率固定。当驱动谐波的幅度从 0 变为 +1 时，多项式波形整形器输出的周期形状会从恒定值连续演变为准谐波，再到默认的模板