17、语音识别中的混合模型与分层神经网络应用

语音识别中的混合模型与分层神经网络应用

1. 分层神经网络的单词识别

在语音识别领域,有一种创新的方法是将频谱图视为图像,并运用分层目标识别系统。该系统在不同条件下展现出了独特的性能。

1.1 线性时间缩放与动态时间规整的性能对比

当采用简单的线性时间缩放时,该系统仅在嘈杂环境中优于Sphinx - 4,而在干净数据上表现较差。例如,在干净数据下,Sphinx的单词错误率(WER)为3.1%,未使用动态时间规整(DTW)时该系统的WER为5.4%。

当使用动态时间规整(DTW)对信号进行适当缩放时,在所有情况下,该系统都能提升预处理后的良好性能,即使在干净信号下也优于Sphinx - 4。使用DTW时,该系统在干净数据上的WER可达到0.9%。

1.2 系统优势与未来研究方向

此系统架构及其底层特征比常用的梅尔频率倒谱系数(MFCCs)对噪声更具鲁棒性。在实际场景中,通常存在显著的背景噪声和录音条件的变化,这种抗噪能力非常重要。

通过线性缩放和DTW的比较可知,更好的时间对齐能够显著提高模型性能。因此,改进时间对齐的方法是未来值得研究的方向。

目前识别任务的复杂度较低,该系统能否扩展到更复杂的任务仍是一个待解决的问题。不过,可以预期该系统能较好地适应更大的词汇量。为了处理连续语音,需要进行音节分割。可以在识别前实现一个音节分割系统,或者将该架构用作隐马尔可夫模型(HMM)的前端。

2. 自动语音识别的混合模型

2.1 背景与问题提出

自动语音识别(ASR)中,隐马尔可夫模型(HMM)是最常用的核心技术,但经

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值