语音合成与转换技术:平均语音建模与非线性音高修改
语音合成和转换技术在当今的科技领域中扮演着重要角色,如文本转语音、语音翻译等应用都离不开这些技术的支持。本文将介绍两种相关的技术:基于无偏决策树的平均语音建模方法,以及使用人工神经网络进行语音转换中的非线性音高修改方法。
基于无偏决策树的平均语音建模
为了评估该方法,研究采用了波斯语语音数据库FARSDAT。以下是实验的具体条件:
1. 数据准备 :对FARSDAT进行了一系列处理,以用于说话人自适应语音合成。语音信号的采样率为16kHz,使用25ms的Blackman窗口,窗口移动步长为5ms。
2. 特征提取 :特征向量包括梅尔倒谱系数(mcep)、带通非周期性(bap)和基频(log - F0),这些特征通过STRAIGHT方法提取。
3. 模型选择 :使用了无跳过路径的5状态从左到右的上下文相关HSMMs。合成单元通过考虑分段和超分段上下文特征进行建模。
4. 数据划分 :从FARSDAT中随机选择了四名男性和四名女性说话者的语音数据作为训练语料,约360分钟;选择一名男性说话者的语音数据作为适应数据,约50分钟。训练数据和适应数据没有重叠,适应过程使用了MLLR适应和MAP估计。
实验通过两个主观测试来评估该方法:
1. 与传统系统对比 :通过基于比较平均意见得分(CMOS)尺度的比较类别评级(CCR)测试,确定了所提出系统在语音特征方面优于传统系统。结果表明,所提出的说话人自适应系统
超级会员免费看
订阅专栏 解锁全文
1244

被折叠的 条评论
为什么被折叠?



