基于模型源分离的多通道空间聚类在自动语音识别中的应用
在语音处理领域,如何在复杂环境下实现高效准确的语音识别一直是研究的重点。本文将介绍基于模型源分离的多通道空间聚类方法在最小方差无失真响应(MVDR)波束形成中的应用,以及相关的自动语音识别实验。
1. 多通道空间聚类相关方法
在多通道信号处理中,有几种方法值得关注。一种是通过代价函数寻找能对目标信号进行最佳重合成的参数 (d^{(i)}(f))。代价函数如下:
[
L(d) = E_t\left[(x(t,f) - d(f)z_i(t,f)y_1(t,f))^2\right]
]
该函数的解为:
[
d^{(i)}(f) = \frac{\sum_t x(t,f)z_i(t,f)y_1^*(t,f)}{\sum_t |z_i(t,f)y_1(t,f)|^2}
]
另外,可以利用多通道模型基期望最大化源分离与定位(MESSL)的互谱相位差(IPD)估计值直接计算满秩的目标信号空间协方差矩阵 (\boldsymbol{\varPhi} {HH})。当使用仅基于 IPD 的方法时:
[
\boldsymbol{\varPhi} {H_jH_{j’}^{(i)}}(f) = \frac{\gamma_{ijj’f}}{|\gamma_{ijj’f}|} \quad \text{其中} \quad \gamma_{ijj’f} = E_{\tau}\left[\exp\left(-j2\pi f(\tau_{\tau} + \epsilon_{jj’}^{(i)}(\tau,f))/f_s\right)\right]
多通道空间聚类在ASR中的应用
超级会员免费看
订阅专栏 解锁全文
44

被折叠的 条评论
为什么被折叠?



