语音识别与语言个性转换技术研究
1. 基于 WFST 的语音识别词典优化
1.1 音素距离计算
在语音识别中,计算两个音素之间的距离时,声学模型可将每个隐马尔可夫模型(HMM)状态表示为一个高斯分布。为了计算距离,采用了三种不同的距离度量方法:
- 欧几里得(EUC)距离
- 马氏(MAH)距离
- 对称 Kullback - Leibler(KL)距离
1.2 基于动态规划的音素序列距离度量
为了确定两个音素序列的差异程度,将动态时间规整(DTW)技术引入到声学距离计算中。DTW 的定义如下:
- (D(x,y) = d_{DTW}(s_x, s_y))
- 其中,(d_{DTW}(s_x, s_y)=\min_F\left[\frac{\sum_{k = 1}^{K}d_{HMM}(p_{x}(k), p_{y}(k))w(k)}{\sum_{k = 1}^{K}w(k)}\right])
- (d_{HMM}(p_{1i}, p_{2j})) 是式 (12.3) 中描述的 HMM 之间的距离
- 加权函数 (w(k)) 用于对路径 (F) 进行归一化,定义为 (w(k)=i(k)-i(k - 1)+j(k)-j(k - 1)),且 (i(1)=j(1)=0)
- 路径 (F = {c(1), c(2), \cdots, c(K)}) 中的 (c(k)) 分别由 (i) 和 (j) 方向上的坐标对 ((i(k), j(k))) 组成,(K) 是两个音素序列的对齐数量
DTW 技术通过强制对齐来最小化累积距离,从而使两个序列能够考虑到彼此的相似性。 <
超级会员免费看
订阅专栏 解锁全文
1067

被折叠的 条评论
为什么被折叠?



