INTERSPEECH 2022|FS-CANet: 基于全带子带交叉注意力机制的语音增强

提出FS-CANet模型,采用全带-子带交叉注意力机制,优化了FullSubNet系列模型,参数量减少25%,在复杂声学环境下显著提升降噪性能。

INTERSPEECH 2022

FS-CANet: 

基于全带子带交叉注意力机制的语音增强

本文由清华大学与腾讯天籁实验室、香港中文大学合作,提出了一个全带-子带交叉注意力(FSCA)模块来交互融合全局信息和局部信息,并将其应用于FullSubNet,构建了一个新的语音增强模型FS-CANet。 FS-CANet在降低了 25% 的参数量的情况下进一步提升了原有语音增强模型在复杂声学环境下的降噪性能,在无混响的条件下SI-SDR达到了 18.08 dB ,有混响的条件下SI-SDR达到了 16.82 dB ,超越了现有的最好的方法。

01 背景动机

单通道语音增强方法从单通道带噪音频信号中去除背景噪声,旨在提高语音的质量和可懂度,在助听器、音频通信和自动语音识别中有着重要的应用。 近年来,基于深度学习的语音增强方法,在低信噪比、混响等挑战性条件下可以取得较好的效果,相关方法可以分为时域方法和频域方法。 时域方法直接从带噪语音波形预测干净的语音波形。 频域方法则一般以带噪频谱特征为输入,其学习目标是干净的频谱特征或掩模(包括理想二值掩模IBM、理想比掩模IRM、理想复比掩模cIRM等)。 总的来说,考虑到系统的鲁棒性和计算复杂度,频域方法更为人们所广泛使用。

FullSubNet作为一种单通

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值