13、语音转换与声门源分析技术研究

非线性音高与声门源分析研究

最新推荐文章于 2025-11-29 12:59:41 发布

A3B4C5

最新推荐文章于 2025-11-29 12:59:41 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：探索非线性语音的奥秘文章标签：语音转换非线性音高修改声门源分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/a3b4c5/article/details/155062141

探索非线性语音的奥秘专栏收录该内容

28 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音转换与声门源分析技术研究

一、非线性音高修改方法在语音转换中的应用

1.1 音高轮廓修改效果对比

在语音转换中，将源说话者（RMS）的音高轮廓转换为目标说话者（SLT）的音高轮廓时，线性修改和非线性修改方法呈现出不同的效果。从相关图示可知，线性修改无法很好地模拟目标说话者音高轮廓的局部变化，而非线性方法则能够做到这一点，并且这里使用的是源说话者相同的时长。

1.2 客观评估：均方根误差（RMSE）

为了评估所提出方法的性能，我们计算了测试集目标音高轮廓和转换后音高轮廓之间的均方根误差（RMSE）。计算时，先将预测轮廓的时长相对于目标说话者的实际轮廓进行归一化处理。具体数据如下表所示：
| 说话者对 | 线性修改（RMSE，Hz） | 非线性修改（RMSE，Hz） |
| ---- | ---- | ---- |
| RMS - to - SLT | 18.28 | 14.36 |
| SLT - to - RMS | 15.92 | 12.50 |

从表中可以明显看出，非线性转换方法的RMSE值更小，表明其在客观评估上表现优于线性方法。

1.3 主观评估：说话者相似度评分

进行了一项非正式的感知测试，从两个转换对中随机选择10个转换后的语音信号，并呈现给10位听众。使用STRAIGHT声码器合成转换后的语音信号，让听众根据1 - 5分的评分标准，比较转换后的语音信号与原始目标说话者语音信号的相似度，5分表示完全匹配，1分表示完全不匹配。评分结果如下表：
| 说话者对 | 线性修改 | 非线性修改 |
| ---- | ----

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。