单通道语音分离与识别的深度网络技术
在语音处理领域,如何在复杂环境下实现语音的有效分离和准确识别一直是研究的重点。本文将介绍一些用于单通道语音分离和识别的深度网络技术,包括深度聚类、信号重建优化、端到端训练以及相关实验结果。
1. 深度聚类
为了估计语音信号的分区,我们寻求由参数 $\theta$ 确定的 $D$ 维嵌入 $V = f_{\theta}(X) \in \mathbb{R}^{N\times D}$,使得对这些嵌入进行聚类后得到的分区接近目标分区。这里的 $V$ 基于深度神经网络,它是整个输入信号 $X$ 的全局函数,并且每个嵌入向量 $v_i \in \mathbb{R}^D$ 具有单位范数,即 $|v_i|_2 = 1$。
我们将嵌入 $V$ 隐式地表示为一个 $N\times N$ 的估计亲和矩阵 $\hat{A} = VV^T$,并通过最小化训练成本函数来优化嵌入,使得对于输入 $X$,$\hat{A}$ 与理想亲和矩阵 $A$ 相匹配。训练成本函数如下:
[
C_Y(V) = |\hat{A} - A|_F^2 = |VV^T - YY^T|_F^2
]
其中,$|\cdot|_F^2$ 是弗罗贝尼乌斯范数的平方。由于其低秩性质,目标函数及其梯度可以以避免对所有元素对进行操作的方式来表述,从而实现高效的计算。
在测试阶段,对测试信号 $X$ 计算嵌入 $V = f_{\theta}(X)$,然后使用 K-means 算法对嵌入的行向量 $v_i \in \mathbb{R}^D$ 进行聚类。得到的聚类分配 $\hat{Y}$ 作为二进制掩码应用于混合信号的复频谱图,以估计源信号。
超级会员免费看
订阅专栏 解锁全文
2315

被折叠的 条评论
为什么被折叠?



