语音识别中的混合模型与分层神经网络应用
1. 分层神经网络的单词识别
在语音识别领域,有一种创新的方法是将频谱图视为图像,并运用分层目标识别系统。该系统在不同条件下展现出了独特的性能。
1.1 线性时间缩放与动态时间规整的性能对比
当采用简单的线性时间缩放时,该系统仅在嘈杂环境中优于Sphinx - 4,而在干净数据上表现较差。例如,在干净数据下,Sphinx的单词错误率(WER)为3.1%,未使用动态时间规整(DTW)时该系统的WER为5.4%。
当使用动态时间规整(DTW)对信号进行适当缩放时,在所有情况下,该系统都能提升预处理后的良好性能,即使在干净信号下也优于Sphinx - 4。使用DTW时,该系统在干净数据上的WER可达到0.9%。
1.2 系统优势与未来研究方向
此系统架构及其底层特征比常用的梅尔频率倒谱系数(MFCCs)对噪声更具鲁棒性。在实际场景中,通常存在显著的背景噪声和录音条件的变化,这种抗噪能力非常重要。
通过线性缩放和DTW的比较可知,更好的时间对齐能够显著提高模型性能。因此,改进时间对齐的方法是未来值得研究的方向。
目前识别任务的复杂度较低,该系统能否扩展到更复杂的任务仍是一个待解决的问题。不过,可以预期该系统能较好地适应更大的词汇量。为了处理连续语音,需要进行音节分割。可以在识别前实现一个音节分割系统,或者将该架构用作隐马尔可夫模型(HMM)的前端。
2. 自动语音识别的混合模型
2.1 背景与问题提出
自动语音识别(ASR)中,隐马尔可夫模型(HMM)是最常用的核心技术,但经
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



