基于深度学习的语音识别中的鲁棒特征
1. 语音增强
在过去几十年里,语音增强受到了广泛关注。大多数语音增强技术旨在修改带噪语音信号的短时谱幅度(STSA)。
1.1 减法型语音增强技术
这类技术假设背景噪声是局部平稳的,可从无语音或停顿区域估计噪声特征。自谱减法算法提出后,出现了多种变体和改进算法。还有研究对各种减法参数进行详细分析,并提出了基于人类听觉系统掩蔽特性自适应调整参数的广义谱减法算法。
1.2 ETSI前端
ETSI(欧洲电信标准协会)提出了用于分布式语音识别(DSR)的基本和高级前端。这些前端在提取用于声学模型训练的频谱特征之前,会进行语音增强以衰减背景噪声。高级前端有两个阶段:
1. 语音活动检测(VAD),检测无语音区域以估计语音增强所需的噪声频谱特征。
2. 语音增强,然后进行声学特征提取。在噪声环境下,高级前端通常比基本前端性能更好。
1.3 听觉场景分析(ASA)与计算听觉场景分析(CASA)
ASA被认为是人类在不同声学环境中稳健感知语音的关键因素,它帮助听众将音频混合组织成对应不同声源的流。CASA系统基于特征,对混合中的各种声源做了较弱假设。理想的二进制时频掩码是CASA的主要计算目标,基于听觉掩蔽现象,软掩码方法已成功应用于小词汇和大词汇任务的抗噪自动语音识别(ASR)。
1.4 对数谱增强(LSEN)
该技术旨在减少对数谱中由噪声引起的变异性,同时保留语音能量的变异性。步骤如下:
1. 在梅尔频谱域计算基于信噪比的软决策掩码,作为语音存在的指示。
2. 将该掩码视为图像,进
超级会员免费看
订阅专栏 解锁全文
980

被折叠的 条评论
为什么被折叠?



