13、语音识别:从有限状态机到统计模型的探索

语音识别:从有限状态机到统计模型的探索

1. 有限状态机与模板匹配在语音识别中的应用

在语音识别领域,有限状态机是一种强大的工具。它可以表示从一个到无穷长度的所有单词组合所构成的无限数量的句子,能充分体现底层语言的复杂性,这正是语音识别器所需要的特性。

回到模板匹配方法,有限状态机可助力语音识别器识别属于其代表集合的口语句子。可以把模板本身看作一个有限状态机,其中每个状态转换对应一个语音帧及其相应的特征向量。

有限状态机的概念能轻松扩展,其状态转换不仅能代表符号或单词,还能表示任何类型的物理现象,如语音的时间片、帧,甚至特征向量。例如,图 3.7 展示的有限状态机就是构成模板的特征向量序列的表示。从一个状态到下一个状态的箭头表示的状态转换对应一个特征向量,若从第一个状态到最后一个状态遍历该机器,就会遇到构成整个模板的特征向量序列。

对于图 3.6 中的有限状态机,若为每个单词转换替换合适的单词模板机,就会创建一个极其庞大的机器,其中每个转换代表对应特定模板特定帧的特定特征向量。图 3.8 展示了这个完整组合机器的一部分。

该机器的任何路径都是模板帧及其相应特征向量的潜在序列,它代表了所有可能的序列。给定一个表示为特征向量序列的输入话语,若允许进行一定量的动态时间规整,机器就能找到其中与该话语最相似的序列。这样就把识别由连贯单词组成的语法正确语音的问题简化为在网络中寻找最佳路径的问题,而贝尔曼的动态规划程序就是解决此问题的方法。无论网络规模多大,该程序都能保证迟早找到最佳路径,只是时间取决于计算机的速度,且时间不会随网络规模和输入话语长度呈指数级增长。

这本质上是一个对齐问题,与孤立词识别中的对齐问题类似。现在有一个巨大的

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值