语音处理中的新型深度架构与单通道语音分离识别研究
1. 分区估计与源估计
为了估计分区,我们寻求由参数 $\theta$ 确定的 $D$ 维嵌入 $V = f_{\theta}(X) \in R^{N\times D}$,使得对这些嵌入进行聚类能得到一个接近目标的 ${1, \cdots, N}$ 的分区。在相关研究中,$V = f_{\theta}(X)$ 基于一个深度神经网络,它是整个输入信号 $X$ 的全局函数。每个嵌入 $v_i \in R^D$ 具有单位范数,即 $|v_i|_2 = 1$。
我们将嵌入 $V$ 视为隐式表示一个 $N\times N$ 的估计亲和矩阵 $\hat{A} = VV^T$,并优化这些嵌入,使得对于输入 $X$,$\hat{A}$ 与理想亲和矩阵 $A$ 相匹配。这通过最小化关于 $V = f_{\theta}(X)$ 的训练成本函数来实现:
[C_Y(V) = |\hat{A} - A|_F^2 = |VV^T - YY^T|_F^2]
该函数在训练样本上求和,其中 $|\cdot|_F^2$ 是弗罗贝尼乌斯范数的平方。由于其低秩性质,目标函数及其梯度可以以避免对所有元素对进行操作的方式来表述,从而实现高效计算。
在测试时,在测试信号 $X$ 上计算嵌入 $V = f_{\theta}(X)$,并使用 K - means 对行 $v_i \in R^D$ 进行聚类。得到的聚类分配 $\hat{Y}$ 作为二进制掩码应用于混合信号的复谱图,以估计源信号。
具体步骤如下:
1. 计算嵌入 $V = f_{\theta}(X)$。
2. 使用 K - means 对 $V$ 的行进行聚类,得到聚类
超级会员免费看
订阅专栏 解锁全文
717

被折叠的 条评论
为什么被折叠?



