基于深度神经网络的音频去噪:模型构建与性能优化
1. 研究背景与模型提出
在音频处理领域,为了构建高效的深度神经网络模型以实现音频去噪并提升性能,研究人员进行了广泛的文献调研。不同学者提出了多种方法,为后续模型的构建提供了参考。
- 已有研究方法
- 基于深度神经网络的分类与转换 :有研究开发深度神经网络对音频中的语音或环境声音进行分类,并训练音频转换以减少识别网络的“感知”损失。
- 音频去噪的不同途径 :如Mike Kayser提出两种音频去噪方法,一是将噪声频谱图输入卷积神经网络得到干净频谱图以生成MFCC;二是将噪声频谱图输入多层感知器网络再连接卷积神经网络来学习和预测MFCC特征,且实验表明tanh激活函数在训练音频频谱图时效果更好。
- 端到端语音分离网络 :有学者提出Conv - TasNet,用于端到端时域语音分离,通过线性编码器优化语音波形表示,利用加权函数实现说话人分离。
综合这些研究,发现隐藏层可提升模型性能,LeakyReLU能减少训练时间,tanh激活函数可改善去噪模型性能,UNet架构可用于构建音频去噪模型。基于此,提出了一种结合UNet模型和密集层的深度神经网络模型。
2. 数据集选择
为了训练模型,选择了以下两个数据集:
- LibriSpeech数据集 :由Vassil Panay
超级会员免费看
订阅专栏 解锁全文
884

被折叠的 条评论
为什么被折叠?



