语音音素识别中的模糊语音解码方法
1. 引言
近年来,自动语音识别(ASR)技术已达到一定的成熟水平。在众多ASR算法中,基于Kullback - Leibler最小信息判别原则的信息论方法备受关注。该原则已成功应用于俄语孤立词识别的语音解码方法(PD)中。
PD方法的关键在于为最小语音单元分配语音代码,这通常被称为音素识别。然而,如果每个音素对应一个独特的代码,PD方法的准确性通常较低。因此,相似的音素会被合并成一个簇,对应相同的语音代码,但这会导致替代解决方案数量增加,尤其是在识别短单词时。为了解决这个问题,本文提出将音素定义为最小语音单元的模糊集,其隶属度由音素距离矩阵决定。
2. 语音解码方法
给定一组 $R > 1$ 个模型音素 ${x_r^ }$,音素识别任务是将查询语音 $x$ 分配给其中一个模型音素。具体步骤如下:
1. 分割语音 :将 $x$ 分割成长度约为 $0.01 - 0.03$ 秒的非重叠段 ${x(t)} {t = 1}^T$。每个部分信号 $x(t) = [x_1(t), \cdots, x_M(t)]$(其中 $M = \tau F$,$F$ 是采样率)通过最近邻规则与模型音素 $x {\nu(t)}^ $ 匹配,该规则基于Kullback - Leibler信息判别 $\rho(x(t)/x_r^ )$。这个距离基于功率谱密度(PSD)的Itakura - Saito散度计算,PSD通过Levinson - Durbin过程和Burg方法获得的LPC系数估计。
2. 分配语音代码
超级会员免费看
订阅专栏 解锁全文
59

被折叠的 条评论
为什么被折叠?



