5、轻量级音乐与语音分离模型的创新探索

轻量级音乐与语音分离模型的创新探索

在音频处理领域,音乐源分离(MSS)和单通道语音增强与识别是两个重要的研究方向。本文将介绍一种轻量级的音乐源分离网络G - MSS,以及一种联合时域和频域的渐进学习方法TFDPL,它们分别在音乐源分离和语音增强与识别方面展现出了出色的性能。

轻量级音乐源分离网络G - MSS

在音乐源分离任务中,研究者提出了一种结合图卷积网络(GCN)的轻量级音乐源分离网络G - MSS。该网络包含一个编码器和四个解码器,每个解码器输出一个目标音乐源。

为了评估G - MSS的性能,研究团队将其与其他13种MSS模型在SDR(信号与失真比)指标上进行了比较。为确保公平比较,仅选择了在训练阶段未使用额外数据的模型进行对比。以下是部分模型在MUSDB18数据集上的SDR指标对比:
| Models | Vocals | Bass | Drums | Other | Avg. | Parm. | Spec. |
| — | — | — | — | — | — | — | — |
| IRM oracle | 9.43 | 7.12 | 8.45 | 7.85 | 8.22 | N/A | ✓ |
| Wave - U - Net [11] | 3.25 | 3.21 | 4.22 | 2.25 | 3.23 | 10.2M | ✗ |
| UMX [18] | 6.32 | 5.23 | 5.73 | 4.02 | 5.33 | 8.9M | ✓ |
| G - MSS | 7.90 | 5.98 | 7.02 | 5.56 | 6.62 | 1.7M | ✓ |

从表格中可以看出,G

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值