22、深度学习语音识别中的鲁棒特征

深度学习语音识别中的鲁棒特征

在语音识别领域,如何提高系统在不同声学环境下的鲁棒性是一个关键问题。本文将介绍几种用于提高语音识别鲁棒性的技术,包括语音增强、信号理论技术和感知驱动特征等方面。

1. 语音增强

语音增强在过去几十年中受到了广泛关注,其主要目的是修改含噪语音信号的短时谱幅度(STSA)。以下是几种常见的语音增强技术:

1.1 减法型语音增强技术

这类技术假设背景噪声是局部平稳的,可从无语音/停顿区域估计噪声特征。自谱减法算法提出以来,出现了多种变体和改进算法。例如,有研究对各种减法参数进行了详细分析,并提出了一种基于人类听觉系统掩蔽特性自适应调整参数的广义谱减法算法。

1.2 ETSI前端

ETSI(欧洲电信标准协会)提出了基本和高级前端用于分布式语音识别(DSR)。这些前端在提取声学模型训练的频谱特征之前,会进行语音增强以衰减背景噪声。高级前端有两个阶段:
1. 第一阶段 :进行语音活动检测(VAD),检测无语音区域以估计语音增强所需的噪声频谱特征。
2. 第二阶段 :进行语音增强,然后提取声学特征。在噪声环境下,ETSI高级前端通常比基本前端性能更好。

1.3 听觉场景分析(ASA)

ASA被认为是人类在不同声学环境中稳健感知语音的关键因素。它帮助人类听众将音频混合信号组织成对应不同声源的流。基于特征的计算听觉场景分析(CASA)系统被提出,该系统对混合信号中的各种声源做了较弱的假设。此外,还提出了理想二进制时频掩码作为CASA的主要计算目标,基于时频掩码的方

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值