INTERSPEECH 2022
FS-CANet:
基于全带子带交叉注意力机制的语音增强

本文由清华大学与腾讯天籁实验室、香港中文大学合作,提出了一个全带-子带交叉注意力(FSCA)模块来交互融合全局信息和局部信息,并将其应用于FullSubNet,构建了一个新的语音增强模型FS-CANet。 FS-CANet在降低了 25% 的参数量的情况下进一步提升了原有语音增强模型在复杂声学环境下的降噪性能,在无混响的条件下SI-SDR达到了 18.08 dB ,有混响的条件下SI-SDR达到了 16.82 dB ,超越了现有的最好的方法。
01 背景动机
单通道语音增强方法从单通道带噪音频信号中去除背景噪声,旨在提高语音的质量和可懂度,在助听器、音频通信和自动语音识别中有着重要的应用。 近年来,基于深度学习的语音增强方法,在低信噪比、混响等挑战性条件下可以取得较好的效果,相关方法可以分为时域方法和频域方法。 时域方法直接从带噪语音波形预测干净的语音波形。 频域方法则一般以带噪频谱特征为输入,其学习目标是干净的频谱特征或掩模(包括理想二值掩模IBM、理想比掩模IRM、理想复比掩模cIRM等)。 总的来说,考虑到系统的鲁棒性和计算复杂度,频域方法更为人们所广泛使用。
FullSubNet作为一种单通

提出FS-CANet模型,采用全带-子带交叉注意力机制,优化了FullSubNet系列模型,参数量减少25%,在复杂声学环境下显著提升降噪性能。
最低0.47元/天 解锁文章
1325

被折叠的 条评论
为什么被折叠?



