语音处理中的新型深度架构探索
在语音处理领域,为了实现更高效准确的语音分离和识别,研究人员不断探索新型的深度架构。本文将详细介绍多通道高斯混合模型(MCGMM)及其扩展,以及端到端深度聚类等相关技术。
1. 多通道高斯混合模型(MCGMM)的变分推理
在处理MCGMM时,可采用近似变分算法。该算法使用变分近似:
[q(X_{1:J}^{f,t}, z_{1:J}^{t}) = \left(\prod_{f}\prod_{j}q(X_{j}^{f,t}|z_{j}^{t})\right)\left(\prod_{j}q(z_{j}^{t})\right)]
其中,(q(X_{j}^{f,t}|z_{j}^{f,t}) = \mathcal{NC}(X_{j}^{f,t}; \hat{\mu} {j,z}^{f,t}, \hat{\gamma} {j,z}^{f})),(q(z_{j}^{f,t}) = \hat{\pi} {j,z}^{t})。这里,(\hat{\mu} {j,z}^{f,t})是状态相关的变分后验均值,(\hat{\gamma}_{j,z}^{f})是状态相关的变分后验精度。
在将深度展开框架应用于MCGMM的变分期望最大化(EM)更新时,会遇到一些挑战。由于复值展开的MCGMM中的一些更新涉及复值变量的非全纯函数,通常的复梯度不足以进行梯度下降。此时可采用Wirtinger微积分定义的复梯度的推广来解决这个问题。
2. 展开多通道高斯混合模型
MCGMM的变分推理在每次迭代(k)时,E步包含以下独立于所有时间(t)的更新:
1.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



