语音识别技术的原理与发展
1. 有限状态转换器与Harpy系统
有限状态转换器(FST)是有限状态机的扩展,在每次状态转换时,除了输入符号外,还有输出符号。在Harpy系统中,语音、词汇和句法知识的整合可以用有限状态转换器的组合来代数表达,每个转换器代表特定层次的知识。现代大多数商业语音识别器都基于有限状态转换器理论。
Harpy系统没有使用音素模板(英语中通常约40个),而是使用了98个音素部分的更小组成元素。例如,爆破音/t/被分解为“停顿”和“爆发”等组成元素。这样的设计让Harpy系统的设计者在表示连续单词之间的转换以及处理协同发音问题时更具灵活性。
手动收集和准备模板是一项繁琐的工作。具体步骤如下:
1. 记录每个参与说话者的话语。
2. 使用声音编辑程序分析这些话语,并将其切割成单个类似音素的模板。
如果能找到加速这一过程的方法,就能让更多说话者以更低成本使用该系统。
Reddy和Lowerre在Harpy系统的工作中发明了“束搜索算法”,该算法至今仍在现代语音识别器中使用。与搜索对齐网格的所有点不同,动态规划算法只考虑累积得分在输入帧最佳得分的预定义偏差(delta)范围内的决策点。搜索沿着“束”进行,跟随局部最佳路径。不过,如果局部最佳路径与全局最佳路径的偏差超过束的大小,最佳路径就会从搜索中消失且无法恢复。但通过选择保守的束大小,可以降低这种情况发生的可能性。而且,很多次优路径仍会经过正确的单词,因此即使搜索并非最优,仍能产生正确的识别结果。
2. 统计语音识别基础
2.1 关键人物与奖项
Fred Jelinek在1988年宾夕法尼亚
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



