14、语音识别与语言个性转换技术研究

语音识别与语言个性转换技术研究

1. 基于 WFST 的语音识别词典优化

1.1 音素距离计算

在语音识别中,计算两个音素之间的距离时,声学模型可将每个隐马尔可夫模型(HMM)状态表示为一个高斯分布。为了计算距离,采用了三种不同的距离度量方法:
- 欧几里得(EUC)距离
- 马氏(MAH)距离
- 对称 Kullback - Leibler(KL)距离

1.2 基于动态规划的音素序列距离度量

为了确定两个音素序列的差异程度,将动态时间规整(DTW)技术引入到声学距离计算中。DTW 的定义如下:
- (D(x,y) = d_{DTW}(s_x, s_y))
- 其中,(d_{DTW}(s_x, s_y)=\min_F\left[\frac{\sum_{k = 1}^{K}d_{HMM}(p_{x}(k), p_{y}(k))w(k)}{\sum_{k = 1}^{K}w(k)}\right])
- (d_{HMM}(p_{1i}, p_{2j})) 是式 (12.3) 中描述的 HMM 之间的距离
- 加权函数 (w(k)) 用于对路径 (F) 进行归一化,定义为 (w(k)=i(k)-i(k - 1)+j(k)-j(k - 1)),且 (i(1)=j(1)=0)
- 路径 (F = {c(1), c(2), \cdots, c(K)}) 中的 (c(k)) 分别由 (i) 和 (j) 方向上的坐标对 ((i(k), j(k))) 组成,(K) 是两个音素序列的对齐数量

DTW 技术通过强制对齐来最小化累积距离,从而使两个序列能够考虑到彼此的相似性。 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值