4、基于图卷积网络的轻量级音乐源分离模型

基于图卷积网络的轻量级音乐源分离模型

1. 引言

音乐源分离(MSS)在音乐信息检索领域有着广泛的应用,如自动歌词识别、音乐流派分类和音乐教育等。此外,它还对语音分离和语音增强的研究有所贡献。当前的音乐源分离方法主要聚焦于分离四种明确的乐器:人声、贝斯、鼓和其他伴奏。然而,由于需要同时分离多个源以及存在其他干扰因素,这一任务极具挑战性。

近年来,随着深度学习的快速发展,基于深度神经网络(DNN)的方法在MSS领域取得了优异的性能,可分为时域和时频域两类。前者直接处理歌曲并输出各个源的波形,后者则先对输入波形进行短时傅里叶变换(STFT)以获得时频(T - F)频谱图,再将其输入到MSS网络中。

许多以往基于深度学习的音乐源分离研究主要关注提升性能,而未考虑实际应用中的模型大小问题。此外,以往方法通常仅采用时域L1损失,忽略了频率区间之间的关系。为解决这些问题,提出了一种结合图卷积网络的轻量级音乐源分离网络(G - MSS),该网络在保持较小模型大小的同时提高了分离性能。其主要贡献如下:
1. 提出了一个采用双路径变压器骨干并利用图卷积网络(GCN)作为注意力模块的MSS网络,在参数数量较少的情况下保持了相当的性能。
2. 同时探索了时域和频域的两种L1损失。
3. 对G - MSS网络的主要组件进行了可视化分析。

2. 相关工作

2.1 基于Transformer的方法

Transformer于2017年被提出,引入了自注意力机制,摒弃了传统的循环神经网络(RNNs)和卷积神经网络(CNNs)架构。这使得模型能够捕捉长期依赖关系并并行处理序列数据,在自然语言处理、图像处理和语音处理等

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值