29、对抗训练变压器:用于语音增强的创新方法

对抗训练变压器:用于语音增强的创新方法

1. 引言

语音增强在众多应用中起着关键作用,如电信系统、语音助手、助听器以及受背景噪音或干扰影响的通信渠道。传统信号处理技术虽然取得了一定成功,但在处理复杂和非平稳噪声源时往往力不从心,导致在现实场景中表现欠佳。

近年来,基于机器学习和深度学习的语音增强算法研究日益增多。传统算法如谱减法和维纳滤波器在处理平稳噪声时表现良好,且所需计算能力较低,因此在便携式设备的语音增强中仍有应用价值。然而,当面对非平稳噪声或低信噪比噪声时,这些传统算法就会失效。

随着深度学习时代的到来,深度学习模型的表现优于传统算法,因此基于深度学习的算法成为研究热点。人工神经网络或深度神经网络曾用于语音增强,但后来发现这些模型无法分析时间特征,难以达到预期效果。于是,一些研究人员开始使用卷积神经网络,因为卷积模型能够很好地学习空间依赖关系。之后,卷积模型发展为编码器 - 解码器结构,还有研究人员在训练时域自动编码器网络时巧妙地使用了 FFT 损失。

不过,一维卷积只能从当前帧提取信息,而每帧都依赖于相邻帧,因此需要利用帧间依赖关系。为此,研究人员采用二维频谱作为输入并使用二维卷积,还有人使用 RNN、LSTM 来提取帧间依赖关系。但 RNN、LSTM 是顺序工作的,逐渐被能够学习序列依赖关系并进行并行操作的变压器所取代,从而实现了 GPU 的高效利用。同时,卷积架构也在不断发展,生成对抗网络(GAN)在语音增强领域崭露头角,为语音增强带来了全新的损失函数。

本文提出了一种名为对抗训练变压器(ATT)的新颖方法,它结合了 GAN 和变压器的优势,在语音增强方面取得了显著效果。

2. 对抗训练变压器
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值