
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
基于统计信号处理的传统噪声抑制方法是通过检测持续的背景声,来估计背景噪声,然后通过估计到的背景噪声计算增益因子对带噪语音进行抑制。但这种方式针对规律的稳态噪声比较有效,如空调声,吸尘器的声音等,而针对突发噪声,如撞击声,键盘声,关门声等等效果往往不如人意。随着深度学习的兴起,越来越多的人们开始关注并使用深度学习强大的非线性能力进行语音降噪。数据驱动的方法如何生成高质量的数据在训练过程中显得尤为重要,这里对AI降噪的一些数据扩增方法进行了总结和实现。
MixTransform
首先使用最多的就是让纯净语音和带噪语音按照不同信噪比进行混合,这样就可以得到丰富的带噪语音,一般采用随机数生成随机的信噪比,信噪比的范围可以根据自己的使用场景进行设定。

SpecTransform
在RNNoise论文中,作者提出使用二阶的IIR滤波器分别对语音信号和噪声信号进行处理,从而丰富语音频谱特性。


文章介绍了在AI降噪领域中,如何利用数据扩增技术提升模型性能。这些技术包括MixTransform(混合信噪比),SpecTransform(IIR滤波器处理),VolTransform(模拟增益变化),FilterTransform(滤波器处理),ReverbTransform(模拟混响),以及BreakTransform,HowlingTransform和DynamicTransform等,来模拟现实世界的各种噪声条件。丰富的训练数据对于构建高性能的降噪模型至关重要。
最低0.47元/天 解锁文章
310

被折叠的 条评论
为什么被折叠?



