35、语音识别技术的原理与发展

语音识别技术的原理与发展

1. 有限状态转换器与Harpy系统

有限状态转换器(FST)是有限状态机的扩展,在每次状态转换时,除了输入符号外,还有输出符号。在Harpy系统中,语音、词汇和句法知识的整合可以用有限状态转换器的组合来代数表达,每个转换器代表特定层次的知识。现代大多数商业语音识别器都基于有限状态转换器理论。

Harpy系统没有使用音素模板(英语中通常约40个),而是使用了98个音素部分的更小组成元素。例如,爆破音/t/被分解为“停顿”和“爆发”等组成元素。这样的设计让Harpy系统的设计者在表示连续单词之间的转换以及处理协同发音问题时更具灵活性。

手动收集和准备模板是一项繁琐的工作。具体步骤如下:
1. 记录每个参与说话者的话语。
2. 使用声音编辑程序分析这些话语,并将其切割成单个类似音素的模板。

如果能找到加速这一过程的方法,就能让更多说话者以更低成本使用该系统。

Reddy和Lowerre在Harpy系统的工作中发明了“束搜索算法”,该算法至今仍在现代语音识别器中使用。与搜索对齐网格的所有点不同,动态规划算法只考虑累积得分在输入帧最佳得分的预定义偏差(delta)范围内的决策点。搜索沿着“束”进行,跟随局部最佳路径。不过,如果局部最佳路径与全局最佳路径的偏差超过束的大小,最佳路径就会从搜索中消失且无法恢复。但通过选择保守的束大小,可以降低这种情况发生的可能性。而且,很多次优路径仍会经过正确的单词,因此即使搜索并非最优,仍能产生正确的识别结果。

2. 统计语音识别基础

2.1 关键人物与奖项

Fred Jelinek在1988年宾夕法尼亚

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值