自动语音识别中的混合模型与基于语音特征的隐马尔可夫模型探索
在自动语音识别(ASR)领域,一直以来都存在着不同的技术路径和方法。其中,隐马尔可夫模型(HMM)是主流的技术之一,但它对语音知识的利用较少。而基于特征标记的识别器则主要依赖精确的语音知识和独特特征。本文将探讨两种不同的研究方向,一是混合模型在自动语音识别中的应用,二是如何将语音特征标记融入基于 HMM 的 ASR 系统。
混合模型在自动语音识别中的应用
支持向量机(SVM)分类器在多个领域的成功应用吸引了 ASR 领域研究人员的关注。早期尝试将 SVM 用于连续数字识别,产生了混合 SVM/HMM 系统,这与过去十年提出的基于人工神经网络(ANN)的混合系统类似。因此,比较这两种系统的性能变得很有必要。同时,由于 ASR 系统的鲁棒性是当前的一个开放问题,所以应该在有噪声的环境中对混合系统进行比较评估。
本次研究中的 ANN/HMM 和 SVM/HMM 混合系统受到了 Bourlard 和 Morgan 工作的启发,其重要贡献在于使用了子音素单元,具体来说,每个音素考虑三个类别(部分),而不是一个。
然而,由于 SVM 公开可用软件实现的一些限制,无法使用整个训练集来训练混合 SVM/HMM ASR 系统。为了进行公平比较,混合 ANN/HMM 也使用了训练集的相同小子集进行训练。在这种条件下,得到的结果如下:
- ANN/HMM 混合系统 :对于所有考虑的噪声类型和信噪比(SNR)值,该系统比作为参考的基于 HMM 的系统提供了稍好的结果。
- SVM/HMM 混合系统 :其性能略低于基于 HMM 的系统。 <
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



