1. 语言模型
P(X1,X2,X3,X4)=P(X1)∗P(X2∣X1)∗P(X3∣X1,X2)∗P(X4∣X1,X2,X3)P(X_1,X_2,X_3,X_4)=P(X_1)*P(X_2|X_1)*P(X_3|X_1,X_2)*P(X_4|X_1,X_2,X_3)P(X1,X2,X3,X4)=P(X1)∗P(X2∣X1)∗P(X3∣X1,X2)∗P(X4∣X1,X2,X3)
常见形式为N-Gram,每个词只与前N-1个词有关。
其他形式:最大熵、神经网络……
大词汇量:
- 不能为每个单词训练HMM,改为用每个音素训练一个HMM
HMM复合:
- 音素HMM按词典拼接成单词HMM
- 单词HMM与语言模型复合成语言HMM

语音识别系统结构

1990-2010该框架没有变化,只是打了很多补丁… - 上下文有关模型
- 区分式训练
- 说话人适应
- 二次打分
评价指标:词错误率




本文介绍了语言模型的基本原理,包括N-Gram模型及其在大词汇量情况下的应用,并讨论了如何通过音素HMM实现对语言模型的优化。此外,还涵盖了语音识别系统的经典结构以及上下文有关模型等关键技术。
1080

被折叠的 条评论
为什么被折叠?



