对抗训练变压器:用于语音增强的创新方法
1. 引言
语音增强在众多应用中起着关键作用,如电信系统、语音助手、助听器以及受背景噪音或干扰影响的通信渠道。传统信号处理技术虽然取得了一定成功,但在处理复杂和非平稳噪声源时往往力不从心,导致在现实场景中表现欠佳。
近年来,基于机器学习和深度学习的语音增强算法研究日益增多。传统算法如谱减法和维纳滤波器在处理平稳噪声时表现良好,且所需计算能力较低,因此在便携式设备的语音增强中仍有应用价值。然而,当面对非平稳噪声或低信噪比噪声时,这些传统算法就会失效。
随着深度学习时代的到来,深度学习模型的表现优于传统算法,因此基于深度学习的算法成为研究热点。人工神经网络或深度神经网络曾用于语音增强,但后来发现这些模型无法分析时间特征,难以达到预期效果。于是,一些研究人员开始使用卷积神经网络,因为卷积模型能够很好地学习空间依赖关系。之后,卷积模型发展为编码器 - 解码器结构,还有研究人员在训练时域自动编码器网络时巧妙地使用了 FFT 损失。
不过,一维卷积只能从当前帧提取信息,而每帧都依赖于相邻帧,因此需要利用帧间依赖关系。为此,研究人员采用二维频谱作为输入并使用二维卷积,还有人使用 RNN、LSTM 来提取帧间依赖关系。但 RNN、LSTM 是顺序工作的,逐渐被能够学习序列依赖关系并进行并行操作的变压器所取代,从而实现了 GPU 的高效利用。同时,卷积架构也在不断发展,生成对抗网络(GAN)在语音增强领域崭露头角,为语音增强带来了全新的损失函数。
本文提出了一种名为对抗训练变压器(ATT)的新颖方法,它结合了 GAN 和变压器的优势,在语音增强方面取得了显著效果。
超级会员免费看
订阅专栏 解锁全文
805

被折叠的 条评论
为什么被折叠?



