语音转换与声门源分析技术研究
一、非线性音高修改方法在语音转换中的应用
1.1 音高轮廓修改效果对比
在语音转换中,将源说话者(RMS)的音高轮廓转换为目标说话者(SLT)的音高轮廓时,线性修改和非线性修改方法呈现出不同的效果。从相关图示可知,线性修改无法很好地模拟目标说话者音高轮廓的局部变化,而非线性方法则能够做到这一点,并且这里使用的是源说话者相同的时长。
1.2 客观评估:均方根误差(RMSE)
为了评估所提出方法的性能,我们计算了测试集目标音高轮廓和转换后音高轮廓之间的均方根误差(RMSE)。计算时,先将预测轮廓的时长相对于目标说话者的实际轮廓进行归一化处理。具体数据如下表所示:
| 说话者对 | 线性修改(RMSE,Hz) | 非线性修改(RMSE,Hz) |
| ---- | ---- | ---- |
| RMS - to - SLT | 18.28 | 14.36 |
| SLT - to - RMS | 15.92 | 12.50 |
从表中可以明显看出,非线性转换方法的RMSE值更小,表明其在客观评估上表现优于线性方法。
1.3 主观评估:说话者相似度评分
进行了一项非正式的感知测试,从两个转换对中随机选择10个转换后的语音信号,并呈现给10位听众。使用STRAIGHT声码器合成转换后的语音信号,让听众根据1 - 5分的评分标准,比较转换后的语音信号与原始目标说话者语音信号的相似度,5分表示完全匹配,1分表示完全不匹配。评分结果如下表:
| 说话者对 | 线性修改 | 非线性修改 |
| ---- | ----
非线性音高与声门源分析研究
超级会员免费看
订阅专栏 解锁全文
49

被折叠的 条评论
为什么被折叠?



