13、语音识别：从有限状态机到统计模型的探索

blue

于 2025-09-02 09:16:51 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：机器如何理解人类语音文章标签：语音识别有限状态机模板匹配

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/blue/article/details/152114985

机器如何理解人类语音专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音识别：从有限状态机到统计模型的探索

1. 有限状态机与模板匹配在语音识别中的应用

在语音识别领域，有限状态机是一种强大的工具。它可以表示从一个到无穷长度的所有单词组合所构成的无限数量的句子，能充分体现底层语言的复杂性，这正是语音识别器所需要的特性。

回到模板匹配方法，有限状态机可助力语音识别器识别属于其代表集合的口语句子。可以把模板本身看作一个有限状态机，其中每个状态转换对应一个语音帧及其相应的特征向量。

有限状态机的概念能轻松扩展，其状态转换不仅能代表符号或单词，还能表示任何类型的物理现象，如语音的时间片、帧，甚至特征向量。例如，图 3.7 展示的有限状态机就是构成模板的特征向量序列的表示。从一个状态到下一个状态的箭头表示的状态转换对应一个特征向量，若从第一个状态到最后一个状态遍历该机器，就会遇到构成整个模板的特征向量序列。

对于图 3.6 中的有限状态机，若为每个单词转换替换合适的单词模板机，就会创建一个极其庞大的机器，其中每个转换代表对应特定模板特定帧的特定特征向量。图 3.8 展示了这个完整组合机器的一部分。

该机器的任何路径都是模板帧及其相应特征向量的潜在序列，它代表了所有可能的序列。给定一个表示为特征向量序列的输入话语，若允许进行一定量的动态时间规整，机器就能找到其中与该话语最相似的序列。这样就把识别由连贯单词组成的语法正确语音的问题简化为在网络中寻找最佳路径的问题，而贝尔曼的动态规划程序就是解决此问题的方法。无论网络规模多大，该程序都能保证迟早找到最佳路径，只是时间取决于计算机的速度，且时间不会随网络规模和输入话语长度呈指数级增长。

这本质上是一个对齐问题，与孤立词识别中的对齐问题类似。现在有一个巨大的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。