语音处理中的新型深度架构
多通道高斯混合模型(MCGMM)的变分推理与展开
在语音处理中,对于多通道高斯混合模型(MCGMM),可以推导出一种近似变分算法。该算法利用变分近似:
[q(X_{1:J}^{f,t}, z_{1:J}^{t}) = \left(\prod_{f}\prod_{j}q(X_{j}^{f,t}|z_{j}^{t})\right)\left(\prod_{j}q(z_{j}^{t})\right)]
其中,(q(X_{j}^{f,t}|z_{j}^{f,t}) = \mathcal{NC}(X_{j}^{f,t}; \hat{\mu} {j,z}^{f,t}, \hat{\gamma} {j,z}^{f})),(q(z_{j}^{f,t}) = \hat{\pi} {j,z}^{t})。这里,(\hat{\mu} {j,z}^{f,t})是状态相关的变分后验均值,(\hat{\gamma}_{j,z}^{f})是源(j)在时频点((t, f))的状态相关变分后验精度。变分更新在相关文献中有详细给出。
将深度展开框架应用于MCGMM的变分期望最大化(EM)更新时,存在一个潜在挑战。在复值展开的MCGMM中,一些更新涉及复值变量的非全纯函数。由于这些非全纯函数,通常的复梯度不足以进行梯度下降。一种可能的方法是分别对实部和虚部求导,但这种实 - 虚导数在代数上可能很繁琐,并且不符合全纯函数的标准复导数定义。幸运的是,可以使用基于Wirtinger微积分定义的复梯度的推广来避开这些问题。
MCGMM的展开过程
在MCGMM中,变分推理使用以下更新:
1.
超级会员免费看
订阅专栏 解锁全文
3303

被折叠的 条评论
为什么被折叠?



