12、语音合成与转换技术：平均语音建模与非线性音高修改

最新推荐文章于 2025-11-25 09:19:52 发布

A3B4C5

最新推荐文章于 2025-11-25 09:19:52 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：探索非线性语音的奥秘文章标签：语音合成语音转换平均语音建模

本文链接：https://blog.youkuaiyun.com/a3b4c5/article/details/155062137

探索非线性语音的奥秘专栏收录该内容

28 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音合成与转换技术：平均语音建模与非线性音高修改

语音合成和转换技术在当今的科技领域中扮演着重要角色，如文本转语音、语音翻译等应用都离不开这些技术的支持。本文将介绍两种相关的技术：基于无偏决策树的平均语音建模方法，以及使用人工神经网络进行语音转换中的非线性音高修改方法。

基于无偏决策树的平均语音建模

为了评估该方法，研究采用了波斯语语音数据库FARSDAT。以下是实验的具体条件：
1. 数据准备 ：对FARSDAT进行了一系列处理，以用于说话人自适应语音合成。语音信号的采样率为16kHz，使用25ms的Blackman窗口，窗口移动步长为5ms。
2. 特征提取 ：特征向量包括梅尔倒谱系数（mcep）、带通非周期性（bap）和基频（log - F0），这些特征通过STRAIGHT方法提取。
3. 模型选择 ：使用了无跳过路径的5状态从左到右的上下文相关HSMMs。合成单元通过考虑分段和超分段上下文特征进行建模。
4. 数据划分 ：从FARSDAT中随机选择了四名男性和四名女性说话者的语音数据作为训练语料，约360分钟；选择一名男性说话者的语音数据作为适应数据，约50分钟。训练数据和适应数据没有重叠，适应过程使用了MLLR适应和MAP估计。

实验通过两个主观测试来评估该方法：
1. 与传统系统对比 ：通过基于比较平均意见得分（CMOS）尺度的比较类别评级（CCR）测试，确定了所提出系统在语音特征方面优于传统系统。结果表明，所提出的说话人自适应系统