轻量级音乐与语音分离模型的创新探索
在音频处理领域,音乐源分离(MSS)和单通道语音增强与识别是两个重要的研究方向。本文将介绍一种轻量级的音乐源分离网络G - MSS,以及一种联合时域和频域的渐进学习方法TFDPL,它们分别在音乐源分离和语音增强与识别方面展现出了出色的性能。
轻量级音乐源分离网络G - MSS
在音乐源分离任务中,研究者提出了一种结合图卷积网络(GCN)的轻量级音乐源分离网络G - MSS。该网络包含一个编码器和四个解码器,每个解码器输出一个目标音乐源。
为了评估G - MSS的性能,研究团队将其与其他13种MSS模型在SDR(信号与失真比)指标上进行了比较。为确保公平比较,仅选择了在训练阶段未使用额外数据的模型进行对比。以下是部分模型在MUSDB18数据集上的SDR指标对比:
| Models | Vocals | Bass | Drums | Other | Avg. | Parm. | Spec. |
| — | — | — | — | — | — | — | — |
| IRM oracle | 9.43 | 7.12 | 8.45 | 7.85 | 8.22 | N/A | ✓ |
| Wave - U - Net [11] | 3.25 | 3.21 | 4.22 | 2.25 | 3.23 | 10.2M | ✗ |
| UMX [18] | 6.32 | 5.23 | 5.73 | 4.02 | 5.33 | 8.9M | ✓ |
| G - MSS | 7.90 | 5.98 | 7.02 | 5.56 | 6.62 | 1.7M | ✓ |
从表格中可以看出,G
超级会员免费看
订阅专栏 解锁全文
707

被折叠的 条评论
为什么被折叠?



