语音识别:从有限状态机到统计模型的探索
1. 有限状态机与模板匹配在语音识别中的应用
在语音识别领域,有限状态机是一种强大的工具。它可以表示从一个到无穷长度的所有单词组合所构成的无限数量的句子,能充分体现底层语言的复杂性,这正是语音识别器所需要的特性。
回到模板匹配方法,有限状态机可助力语音识别器识别属于其代表集合的口语句子。可以把模板本身看作一个有限状态机,其中每个状态转换对应一个语音帧及其相应的特征向量。
有限状态机的概念能轻松扩展,其状态转换不仅能代表符号或单词,还能表示任何类型的物理现象,如语音的时间片、帧,甚至特征向量。例如,图 3.7 展示的有限状态机就是构成模板的特征向量序列的表示。从一个状态到下一个状态的箭头表示的状态转换对应一个特征向量,若从第一个状态到最后一个状态遍历该机器,就会遇到构成整个模板的特征向量序列。
对于图 3.6 中的有限状态机,若为每个单词转换替换合适的单词模板机,就会创建一个极其庞大的机器,其中每个转换代表对应特定模板特定帧的特定特征向量。图 3.8 展示了这个完整组合机器的一部分。
该机器的任何路径都是模板帧及其相应特征向量的潜在序列,它代表了所有可能的序列。给定一个表示为特征向量序列的输入话语,若允许进行一定量的动态时间规整,机器就能找到其中与该话语最相似的序列。这样就把识别由连贯单词组成的语法正确语音的问题简化为在网络中寻找最佳路径的问题,而贝尔曼的动态规划程序就是解决此问题的方法。无论网络规模多大,该程序都能保证迟早找到最佳路径,只是时间取决于计算机的速度,且时间不会随网络规模和输入话语长度呈指数级增长。
这本质上是一个对齐问题,与孤立词识别中的对齐问题类似。现在有一个巨大的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



