15、语音识别中的隐马尔可夫模型：统计方法的力量

最新推荐文章于 2025-11-24 20:15:00 发布

blue

最新推荐文章于 2025-11-24 20:15:00 发布

阅读量62

点赞数

CC 4.0 BY-SA版权

分类专栏：机器如何理解人类语音文章标签：隐马尔可夫模型 HMM 语音识别

本文链接：https://blog.youkuaiyun.com/blue/article/details/152114992

机器如何理解人类语音专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音识别中的隐马尔可夫模型：统计方法的力量

1. 隐马尔可夫模型基础

隐马尔可夫模型（HMM）可以计算特定序列在所有可能由同一“盒子”生成的序列中的概率，前提是假设HMM能真实反映实际情况。例如，对于给定的一个序列，我们可以得出其对应的状态和概率。但由于HMM会将一系列观察结果分割成隐藏状态，我们无法确定这种分割是否正确，只能说在HMM的概率体系下，该分割是所有可能分割中最有可能的，这本质上是一个对齐问题。

2. 语音的隐马尔可夫模型表示

在语音识别中，我们观察到的单词是一系列特征向量，这些特征向量由代表频谱信息的数字列组成，这就是计算机“听到”的语音样子。每个特征向量类似于掷骰子的结果，我们很难确切知道是什么导致了某个特征向量数字的出现，就像难以预测骰子某次掷出的点数一样。因此，我们依靠统计方法，将特征向量数字视为由概率支配的随机事件。

当我们发出一个单词时，声道会从一种配置转变到另一种配置，所以不同的声道配置下，特征向量的统计特性也不同。这就如同不同的骰子有不同的点数出现概率，而每个声道配置对应着所有可能特征向量的不同概率分布。我们可以将单词表示为一个HMM，其中每个状态代表特定声道配置下的特征向量统计信息，每个状态转移代表从当前配置的统计特性中抽取下一个特征向量或转移到下一个配置的概率。

实际上，语音技术专家在构建语音单元（如单词、音节或音素）的HMM时，并不考虑声道配置的实际数量。一方面，声道配置是复杂且连续变化的现象，难以确定其确切数量；另一方面，HMM的性能并不依赖于状态的确切数量或与声道配置的精确对应关系。通常，一个包含5到10个状态的HMM就足以表示任何可能的单词，关键在于学习其状态和转移的概率。

会员秒杀 ¥9.9 重磅福利

超级会员免费看