多通道空间聚类与基于模型的声源分离技术解析
1. 模型训练与数据要求
在进行模型训练时,应使用能反映模型实际运行条件的数据。一种常见的训练方法是使用多条件数据,即让识别器在混合了多种不同噪声的语音数据上进行训练,期望测试时遇到的噪声与训练时的某种噪声相似。多条件训练对基于高斯混合模型(GMM)和深度神经网络(DNN)的声学模型都有益处。DNN增强系统也可进行明确训练,以在固定麦克风阵列的不同声源位置上实现泛化,甚至在线性阵列的不同麦克风间距上实现泛化。
2. 波束形成与空间聚类
尽管在判别式训练过程中,将模型泛化到新的麦克风、声源和房间空间配置上成本较高,但可以通过波束形成自然地从数据中提取相关信息。传统波束形成假定阵列几何结构已知,这限制了其在新条件下的泛化能力,而无监督的基于定位的聚类方法则避免了这一假设。这种方法已成功应用于双麦克风分离、大型临时麦克风阵列的定位、校准和时频(T - F)掩码构建等场景,也可应用于分布式麦克风阵列。
空间聚类方法基于时频掩码的思想,通过对频谱图中的不同时频点应用不同的衰减来抑制混合声音中的不需要声源。聚类时频点可得到具有相似空间特征的点组,安排每个时频点在每个组中的隶属权重可得到用于分离单个声源的时频掩码。这种基于掩码的方法与传统的盲源分离(BSS)方法不同,传统方法旨在对所有时频点的所有声源进行建模。
3. 多通道语音信号
3.1 时域与频域信号关系
设时域中感兴趣的信号为 $x_1[n]$,若它与 $I - 1$ 个其他信号 $x_i[n]$ 一起在 $J$ 个麦克风处记录,第 $j$ 个麦克风处的信号为 $y_j[n]$,则有:
[ <
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



