实时联合盲语音分离与去混响技术解析
1. 引言
在音频信号处理领域,会议场景下的音频处理是极具挑战性的任务。在封闭空间中,利用麦克风采集的混合音频信号里提取所需语音信号并非易事。在多输入多输出(MIMO)声学系统中,语音混合信号不仅包含其他共存声源的干扰,还受到多径声学反射产生的混响回声影响。因此,盲源分离(BSS)和语音去混响技术成为恢复纯净声源信号的关键。
此前有基于盲信道识别(BCI)的两阶段方法,实现顺序的源分离和语音去混响。然而,该方法的主要缺陷在于,当存在多个声源同时发声时,BCI 阶段难以准确估计房间脉冲响应(IRs)。为解决这一问题,引入了说话人聚类系统来引导 BCI 阶段,使系统能直接利用麦克风混合信号完成识别任务,整体架构更适合实时应用。
该框架基于免费软件平台 NU - Tech 开发,借助 ASIO 接口与 PC 声卡高效管理音频流,并通过插件架构实现 C++ 代码的开发。在 8kHz 采样率的合成条件下进行的实验,证实了该架构在普通 PC 上的有效性和实时处理能力。
2. 问题描述
假设存在 M 个独立语音源和 N 个麦克风(M < N),它们之间的关系由一个 M × N 的 MIMO FIR 系统描述。对于第 n 个麦克风信号,可表示为:
[
x_n(k) = \sum_{n = 1}^{N} h_{nm}^T s_m(k, L_h) + b_n(k), \quad k = 1, 2, \ldots, K, \quad n = 1, 2, \ldots, N
]
其中,(h_{nm} = [h_{nm,0} \ h_{nm,1} \ \ldots \ h_{nm,
超级会员免费看
订阅专栏 解锁全文
1499

被折叠的 条评论
为什么被折叠?



