语音识别系统的性能比较与分析
1. 新型语音识别方法概述
有一种新型的语音识别方法,它将频谱图视为图像,并部署了分层目标识别系统。为了优化系统的主要自由参数,使用了进化算法,这样无需手动调整参数就能快速改变系统。
在性能方面,该系统在不同条件下表现各异。当采用简单的线性时间缩放时,系统仅在嘈杂环境中优于Sphinx - 4,但在干净数据上表现较差。而使用动态时间规整(DTW)对信号进行适当缩放后,在所有情况下,系统都能提升预处理后的良好性能,即使对于干净信号,也能超越Sphinx - 4。例如,在干净数据下,Sphinx的单词错误率(WER)为3.1%,使用DTW时该系统的WER为0.9%,不使用DTW时为5.4%。添加白噪声或工厂噪声时,系统性能相似。
2. 系统优势与局限性
- 抗噪优势 :该系统的架构和底层特征比常用的梅尔频率倒谱系数(MFCCs)对噪声更具鲁棒性。在现实场景中,通常存在显著的背景噪声和录音条件的变化,这种抗噪能力非常重要。
- DTW的局限性 :目前形式的DTW利用了现实情况中无法获取的信息。
- 时间对齐的影响 :线性缩放和DTW的比较表明,更好的时间对齐可以显著提高模型性能。因此,改进时间对齐的方法是未来有趣的研究方向。
- 任务扩展性 :当前识别任务的复杂度较低,系统能否扩展到更复杂的任务仍是一个悬而未决的问题。不过,可以预期该系统能很好地推广到更大的词汇量。
- 连续语
超级会员免费看
订阅专栏 解锁全文
2181

被折叠的 条评论
为什么被折叠?



