长短期记忆网络在单声道源分离中的应用
在音频处理领域,单声道源分离是一个重要的研究方向,旨在从混合音频信号中分离出不同的源信号。传统的方法如非负矩阵分解(NMF)在处理复杂音频场景时存在一定的局限性。随着深度学习的发展,循环神经网络(RNN)及其变体逐渐成为解决单声道源分离问题的有效工具。本文将重点介绍长短期记忆网络(LSTM)及其双向变体(BLSTM)在单声道源分离中的应用。
1. 不同方法的性能比较
在源分离任务中,常用的评估指标包括信号与失真比(SDR)、信号与干扰比(SIR)和信号与伪像比(SAR)。通过比较使用NMF、DRNN、DDRNN - bw和DDRNN - diff等方法分离信号的这些指标,发现判别式DRNN(DDRNN - bw和DDRNN - diff)在SIR方面表现优于生成式DRNN。这主要是因为源间和差分向量的判别项可以减少两个源信号之间的干扰。然而,DDRNN - bw在处理伪像方面效果不佳,而DDRNN - diff相比DRNN能更好地处理伪像。
2. 长短期记忆网络(LSTM)
2.1 物理解释
标准的循环神经网络(RNN)存在梯度消失或梯度爆炸的问题。这是由于在长展开网络中,相同权重在多个时间步上重复相乘导致的。如图7.8所示,RNN中时间步1的梯度通过隐藏状态$z_t$传播到输出层,但在时间步2、3和4逐渐消失,到时间步5时梯度完全消失,时间步1提取的信息在时间上迅速衰减,仅在前4个时间步有效。
为了解决这个问题,引入了LSTM。LSTM的目标是保留早期隐藏节点的激活,以便在当前时间$t$进行预测,并提取长历史中的短期特征用于单声道源分离。一个LSTM块由一个记忆单元$c_t
LSTM在单声道源分离中的应用
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



