17、语音处理中的新型深度架构探索

语音处理中的新型深度架构探索

在语音处理领域,为了实现更高效准确的语音分离和识别,研究人员不断探索新型的深度架构。本文将详细介绍多通道高斯混合模型(MCGMM)及其扩展,以及端到端深度聚类等相关技术。

1. 多通道高斯混合模型(MCGMM)的变分推理

在处理MCGMM时,可采用近似变分算法。该算法使用变分近似:
[q(X_{1:J}^{f,t}, z_{1:J}^{t}) = \left(\prod_{f}\prod_{j}q(X_{j}^{f,t}|z_{j}^{t})\right)\left(\prod_{j}q(z_{j}^{t})\right)]
其中,(q(X_{j}^{f,t}|z_{j}^{f,t}) = \mathcal{NC}(X_{j}^{f,t}; \hat{\mu} {j,z}^{f,t}, \hat{\gamma} {j,z}^{f})),(q(z_{j}^{f,t}) = \hat{\pi} {j,z}^{t})。这里,(\hat{\mu} {j,z}^{f,t})是状态相关的变分后验均值,(\hat{\gamma}_{j,z}^{f})是状态相关的变分后验精度。

在将深度展开框架应用于MCGMM的变分期望最大化(EM)更新时,会遇到一些挑战。由于复值展开的MCGMM中的一些更新涉及复值变量的非全纯函数,通常的复梯度不足以进行梯度下降。此时可采用Wirtinger微积分定义的复梯度的推广来解决这个问题。

2. 展开多通道高斯混合模型

MCGMM的变分推理在每次迭代(k)时,E步包含以下独立于所有时间(t)的更新:
1.

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值