组稀疏非负矩阵分解(Group Sparse NMF)在音乐分离中的应用
在音频处理领域,从混合音频信号中分离出不同的源信号是一个重要的任务,特别是对于单声道音乐分离,需要有效的方法来区分和提取其中的节奏和和声成分。组稀疏非负矩阵分解(Group Sparse NMF)为此提供了一种强大的解决方案,下面将详细介绍其原理、实现和评估。
1. 组稀疏非负矩阵分解基础
在处理音频信号时,组稀疏非负矩阵分解将其划分为多个段 ${X^{(l)}} {l = 1}^L$。其中,$B_r \in R^{M \times K_r} +$ 是所有段共享的基矩阵,用于捕捉整个信号不同段中持续出现的重复模式;而 $B_h^{(l)} \in R^{M \times K_h}_+$ 和 $E^{(l)}$ 分别是给定段 $l$ 的个体基矩阵和噪声矩阵,个体基用于补偿共享基无法处理的剩余信息。
具体来说,共享基和个体基分别用于从混合音频信号中恢复节奏和和声信号。从子空间的角度来看,观测信号被分解为两个部分:一部分来自共享基张成的主空间,另一部分来自个体基张成的次空间。
同时,对两组重建权重 $W_r^{(l)} \in R^{K_r \times N} +$ 和 $W_h^{(l)} \in R^{K_h \times N} +$ 施加稀疏性约束。假设节奏源的重建权重 $W_r^{(l)}$ 和和声源的重建权重 $W_h^{(l)}$ 相互独立,但允许每组内的重建权重之间存在依赖关系。
假设第 $n$ 个噪声向量 $E^{(l)} {\colon n}$ 是均值为零的高斯分布,且具有 $M \times M$ 的
超级会员免费看
订阅专栏 解锁全文
5842

被折叠的 条评论
为什么被折叠?



