35、语音识别技术的原理与发展

blue

于 2025-09-24 14:05:56 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏：机器如何理解人类语音文章标签：语音识别有限状态转换器 Harpy系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/blue/article/details/152115058

机器如何理解人类语音专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音识别技术的原理与发展

1. 有限状态转换器与Harpy系统

有限状态转换器（FST）是有限状态机的扩展，在每次状态转换时，除了输入符号外，还有输出符号。在Harpy系统中，语音、词汇和句法知识的整合可以用有限状态转换器的组合来代数表达，每个转换器代表特定层次的知识。现代大多数商业语音识别器都基于有限状态转换器理论。

Harpy系统没有使用音素模板（英语中通常约40个），而是使用了98个音素部分的更小组成元素。例如，爆破音/t/被分解为“停顿”和“爆发”等组成元素。这样的设计让Harpy系统的设计者在表示连续单词之间的转换以及处理协同发音问题时更具灵活性。

手动收集和准备模板是一项繁琐的工作。具体步骤如下：
1. 记录每个参与说话者的话语。
2. 使用声音编辑程序分析这些话语，并将其切割成单个类似音素的模板。

如果能找到加速这一过程的方法，就能让更多说话者以更低成本使用该系统。

Reddy和Lowerre在Harpy系统的工作中发明了“束搜索算法”，该算法至今仍在现代语音识别器中使用。与搜索对齐网格的所有点不同，动态规划算法只考虑累积得分在输入帧最佳得分的预定义偏差（delta）范围内的决策点。搜索沿着“束”进行，跟随局部最佳路径。不过，如果局部最佳路径与全局最佳路径的偏差超过束的大小，最佳路径就会从搜索中消失且无法恢复。但通过选择保守的束大小，可以降低这种情况发生的可能性。而且，很多次优路径仍会经过正确的单词，因此即使搜索并非最优，仍能产生正确的识别结果。

2. 统计语音识别基础

2.1 关键人物与奖项

Fred Jelinek在1988年宾夕法尼亚

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。