36、统计语音识别技术详解

统计语音识别技术详解

1. 统计语音识别基础

在语音识别领域,统计方法是一种重要的技术手段。以一个 16 kHz 语音朗读字母 “D A V I D” 的语谱图为例,该语谱图由 20 ms 帧和 10 ms 重叠创建,大小为 249 × 161,输出序列长度为 5,对应词汇表中的每个字符。

1.1 声学模型:P(X|W)

声学模型用于描述声学特征与单词之间的关系。其统计定义可通过将声学特征映射到音素,再从音素映射到单词来扩展。具体公式如下:
[
W^* = \arg\max_W P(X|W)P(W) = \arg\max_W \sum_S P(X,S|W)P(W) \approx \arg\max_{W,S} P(X|S)P(S|W)P(W)
]
其中,(P(X|S)) 将声学特征映射到音素状态,(P(S|W)) 将音素映射到单词(通常称为发音模型)。

该模型依赖于预测观察值 (X) 的可能性,即 (P(X|W, \Theta_A))。求解此概率需要基于状态的建模方法,如隐马尔可夫模型(HMMs)。若假设为离散状态模型,观察值的概率可通过引入状态序列 (S) 来定义:
[
P(X|W) = \sum_S P(X|S)P(S|W)
]

进一步使用概率链规则对 (P(X|S)) 进行因式分解,可得到逐帧似然:
[
P(X|S) = \prod_{t=1}^T P(x_t|x_{1:t - 1}, S)
]
在条件独立假设下,该式可简化为:
[
P(X|S) \approx \prod_{t=1}^T P(x_t|s_t) <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值