卷积非负矩阵分解在语音去混响中的应用
1. 卷积非负矩阵分解概述
卷积非负矩阵分解(Convolutive NMF)在单通道源分离中具有重要作用。一般来说,一维和二维去卷积的卷积非负矩阵分解能够学习混合信号在连续时间帧和频率区间上的时间和频率依赖关系,这对单通道源分离非常有益。为了提高模型的正则化能力,通常会施加稀疏性约束。接下来,我们将探讨基于卷积非负矩阵分解的语音去混响模型,并将贝叶斯学习融入其中。
2. 语音去混响模型
在室内使用远场有源麦克风录制语音信号时,由于声音在周围物体和墙壁上的反射(即混响),语音信号的质量和可懂度容易下降。混响或信号混合的影响会显著改变助听器的音质和自动语音识别的性能。从单通道录音中恢复混响语音信号,对于在不利条件下的实际应用具有重要意义。
一个时刻 $t$ 的混响语音信号 $x(t)$ 可以表示为干净语音 $s(t)$ 和房间脉冲响应(RIR) $r(t)$ 的线性卷积,即:
$x(t) = s(t) * r(t)$
这里,RIR 的长度 $L$ 是已知的。语音混响问题可以通过一个统计模型来解决,该模型结合了非负卷积传递函数(NCTF)和非负矩阵分解(NMF),在幅度谱域中对房间声学特性和语音频谱进行联合建模,其中信号、噪声和混响参数均为非负。
与标准的 NMF 不同,NCTF - NMF 不仅使用 NMF 来表征干净语音 $S = {S_{ft}} \in R^{F×T} +$:
$S {ft} \approx [BW] {ft} = \sum {k} B_{fk}W_{kt}$
还使用 NCTF
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



