提升普通话声调识别准确率的创新方法
1. 提出的方法
为了提高普通话声调识别的准确率,本文提出了一种结合基于强制对齐的声调模型和基于竞争模型的声调评估的方法。以下将详细介绍该方法的各个部分。
1.1 基于HMM强制对齐的分割预处理
分割准确率对评估效果至关重要,因此在进行声调评估前,需先对语音信号进行分割。利用基于HMM的强制对齐对输入语音进行初始分割,具体步骤如下:
1. 构建声学模型 :使用863普通话语料库构建HMM强制对齐的声学模型,该模型基于上下文相关的三音子建模,声学特征为39维梅尔频率倒谱系数(MFCC)声调模型,使用HTK工具构建。
2. 提取参数 :将输入语音波形提取为39维MFCC参数。
3. 强制对齐 :使用维特比算法进行强制对齐,将输入语音分割成若干声调音节。
以句子“偶然的机会 (Ouran de Jihui)”为例,图3.2展示了基于HMM强制对齐的初始分割结果,图3.3为手动分割结果。对比发现,图3.2的音节边界位置通常在图3.3的边界之前。
1.2 基于强制对齐的声调模型
为了准确评估声调,提出了基于强制对齐的声调模型。具体内容如下:
1. 样本分类 :将训练样本分为五类声调,即高平(第一声)、低升(第二声)、高低升(第三声)、高降(第四声)和轻声(第五声)。
2. 特征提取 :对于所有分割后的语音,采用归一化和幅度差平方函数(SMDSF)和维特
超级会员免费看
订阅专栏 解锁全文
23

被折叠的 条评论
为什么被折叠?



