多通道混响抑制：GWPE(Generalized Weighted Prediction Error)

LegendNeverDied-24

已于 2024-11-23 20:45:02 修改

阅读量1.3k

点赞数 3

分类专栏：语音信号处理文章标签：信号处理

于 2021-03-07 21:21:18 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_45424997/article/details/114444821

版权

语音信号处理专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种多通道混响抑制技术——GWPE（Generalized Weighted Prediction Error）。首先，文章详细解释了模型构建，涉及多个说话人和麦克风的信号处理模型。接着，定义了GWPE损失函数，通过最小化麦克风阵列接收信号的相关性来去混响。最后，探讨了优化算法，包括如何估计预测矩阵G。GWPE利用Hadamard-Fischer互相关作为损失函数，目标是找到最佳的G来减小混响响应的长度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.模型构建

考虑一个M个说话人，N个麦克风的场景。
$s^{m}[k](1 \leq m \leq M)$ ：第m个说话人k时刻的信号。
$y^{n}[k]$ 和 $v^{n}[k](1 \leq n \leq N)$ ：第n个麦克风k时刻的接收信号和噪声。
则有：
$\boldsymbol{y}[k]=\sum_{\tau=0}^{J-1} \boldsymbol{H}^{T}[\tau] \boldsymbol{s}[k-\tau]+\boldsymbol{v}[k]\ \ \ \ \ \ \ \ \ \ （1）$
其中
$\boldsymbol{y}[k]=\left[y^{1}[k], \ldots, y^{N}[k]\right]^{T}$ , $\boldsymbol{s}[k]=\left[s^{1}[k], \ldots, s^{M}[k]\right]^{T}$ , $\boldsymbol{v}[k]=\left[v^{1}[k], \ldots, v^{N}[k]\right]^{T}$

$\boldsymbol{H}[\tau]$ 为房间的脉冲响应矩阵，J表示响应的阶数。
$\boldsymbol{H}[\tau]=\left[\begin{array}{ccc} h^{1,1}[\tau] & \cdots & h^{N, 1}[\tau] \\ \vdots & \ddots & \vdots \\ h^{1, M}[\tau] & \cdots & h^{N, M}[\tau] \end{array}\right]_{M\times N}$
$\left\{h^{n, m}[\tau]\right\} 0 \leq \tau \leq J-1$ 为说话人m与麦克风n之间的冲击响应。
式（1）其实就是卷积的矩阵形式。
为了减少滤波器的阶数，原论文中还对 $\boldsymbol{y}[k]$ 进行了子带分解，本文不做考虑。

我们希望能够减少混响响应的长度来对混响效果进行削弱。
将 $\boldsymbol{y}[k]$ 写为：
$\boldsymbol{y}[k]=\sum_{\tau=0}^{\Delta} \boldsymbol{H}^{T}[\tau] \boldsymbol{s}[k-\tau]+\sum_{\tau=\Delta}^{J-1} \boldsymbol{H}^{T}[\tau] \boldsymbol{s}[k-\tau]+\boldsymbol{v}[k]$
希望削减混响响应的长度到 $\Delta$ ，即只保留第一项。

首先采用多通道线性预测技术用 $\Delta -(J-1)$ 的麦克风接收信号去估计 $\Delta -(J-1)$ 部分的混响：
$\tilde{\boldsymbol{y}}(k)=\sum_{\tau=\Delta}^{\Delta+K-1} G^{T}(\tau) \boldsymbol{y}(k-\tau)$
其中 $\left\{G(\tau)\right\}_{\Delta \leq \tau \leq \Delta+K-1}$ 为 $N\times N$ 的预测矩阵，由于实际中混响的效果随着时间逐渐减弱，所以只需要估计长度为K的混响信号。

然后与 $\boldsymbol{y}[k]$ 作差：
$\boldsymbol{x}(k)=\boldsymbol{y}(k)-\tilde{\boldsymbol{y}}(k)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)$
如果最小化（2），由于 $\tilde{y}(k)$ 只与 ${y}(k)$ 的 $\Delta \leq \tau \leq \Delta+K-1$ 的部分相关，所以会对消掉。
理想的预测误差 $\boldsymbol{x}(k)$ 等于
$\boldsymbol{x}_{}(k)=\sum_{\tau=0}^{\Delta-1} \boldsymbol{H}^{T}(\tau) \boldsymbol{s}(k-\tau)+\text { noise }\ \ \ \ \ \ \ \ \ \ \ (3)$

2.GWPE损失函数定义

假设我们收集T点的预测误差数据 $\left(\boldsymbol{x}(k)\right)_{k \in {T}}$ ，干净的语音信号在延迟时间大于几十毫秒后，其自相关系数基本为0，但是混响信号在延迟时间较长时自相关系数仍然很大，所以GWPE损失函数就是通过最小化T点麦克风阵列接收信号的相关性来达到去混响的目的。

GWPE使用Hadamard-Fischer mutual correlation作为损失函数，其定义如下：
$C_{H F}\left(\boldsymbol{U}_{1}, \ldots, \boldsymbol{U}_{N}\right)=\frac{1}{N} \sum_{n} \log \left(\operatorname{det} E\left(\boldsymbol{U}_{n} \boldsymbol{U}_{n}^{H}\right)\right)-\log \left(\operatorname{det} E\left(\boldsymbol{U} \boldsymbol{U}^{H}\right)\right)$
其中 $\boldsymbol{U}_{1}, \ldots, \boldsymbol{U}_{N}$ 表示复随机变量，当 $\boldsymbol{U}_{1}, \ldots, \boldsymbol{U}_{N}$ 互不相关时：
$C_{\mathrm{HF}}\left(\boldsymbol{U}_{1}, \ldots, \boldsymbol{U}_{N}\right) = 0$

所以我们就可以通过上述损失函数来最小化 $\left(\boldsymbol{x}(k)\right)_{k \in {T}}$ 的相关性。
令 $\boldsymbol{x}_{T}=\left[\boldsymbol{x}^{T}(T), \ldots, \boldsymbol{x}^{T}(1)\right]^{T}$ 损失函数可以写为：
$\begin{aligned} F\left(\mathcal{G}\right)=& C_{\mathrm{HF}}\left(\boldsymbol{x}(1), \ldots, \boldsymbol{x}(T)\right) \\ =& \frac{1}{|T|} \sum_{t \in T} \log \left(\operatorname{det} E\left(\boldsymbol{x}_{T}(t) \boldsymbol{x}_{T}^{T}(t)\right)\right) -\log \left(\operatorname{det} E\left(\boldsymbol{x}_{T} \boldsymbol{x}_{T}^{T}\right)\right) \end{aligned}（4）$
其中 $\mathcal{G}=\left\{\boldsymbol{G}(\tau)\right\}_{\Delta \leq \tau \leq \Delta+K-1}$ .

损失函数第二项实际上是常数，证明如下：
我们将式（2）写为矩阵形式：
$x_{T}=G \cdot y_{T}$
其中 $\boldsymbol{y}_{T}=\left[\boldsymbol{y}^{T}(T), \ldots, \boldsymbol{y}^{T}(1)\right]^{T}$ ,
$G=\left\{\boldsymbol{I}, \boldsymbol{O}, \ldots, \boldsymbol{O},-\boldsymbol{G}(\Delta), \ldots,-\boldsymbol{G}\left(\Delta+K_{l}-1\right)\right\}$ 因此有： $\begin{aligned} \operatorname{det} E\left(\boldsymbol{x}_{T} \boldsymbol{x}_{T}^{T}\right) &=\left|\operatorname{det} \boldsymbol{G}\right|^{2} \operatorname{det} E\left(\boldsymbol{y}_{T} \boldsymbol{y}_{T}^{T}\right) \\ &=\operatorname{det} E\left(\boldsymbol{y}_{T} \boldsymbol{y}_{T}^{T}\right) \\ &=\text { constant. } \end{aligned}$
（上标T表示转置/共轭转置）所以式（4）的第二项可以去掉。
$\begin{aligned} F\left(\mathcal{G}\right)=& \frac{1}{|T|} \sum_{t \in T} \log \left(\operatorname{det} E\left(\boldsymbol{x}_{T}(t) \boldsymbol{x}_{T}^{T}(t)\right)\right) \end{aligned}（5）$
上式就是GWPE的损失函数，现在混响抑制的目标可以写为：
$\mathcal{G}_{}=\arg \min _{\mathcal{G}_{}} F\left(\mathcal{G}_{}\right)$

3.优化算法

最小化（5）来获得 $\mathcal{G}$ 的估计，但是由于（5）没有解析解，所以论文中给出辅助函数的方法，构造辅助函数：
$\begin{array}{r} \tilde{F}\left(\mathcal{G}, \mathcal{L}\right)=\frac{1}{|T|} \sum_{t \in T}\left(E\left(x^{T}(t) \boldsymbol{\Lambda}(t)^{-1} \boldsymbol{x}_{T}(t)\right)\right. \left.-N+\log \left(\operatorname{det} \boldsymbol{\Lambda(t)}\right)\right) \end{array}$
其中 $\mathbf{\Lambda}=E\left(\boldsymbol{x}_{T} \boldsymbol{x}_{T}^{T}\right)$
为空间相关矩阵， $\mathbf{\Lambda}$ 通常通过时间平均的方法得到
${\boldsymbol{\Lambda}}=\sum_{k=t-\delta}^{t+\delta}\frac{1}{2 \delta+1} \mathbf{x}_{T} \mathbf{x}_{T}^{T}$
然后估计 $\mathcal{G}$ ：
$\begin{aligned} \hat{\boldsymbol{R}} &=\sum_{t \in \mathcal{T}} \overline{\boldsymbol{\psi}(t-\Delta)} \hat{\boldsymbol{\Lambda}}(t)^{-1} \overline{\boldsymbol{\psi}^{*}(t-\Delta)} \\ \hat{\boldsymbol{r}} &=\sum_{t \in \mathcal{T}} \overline{\boldsymbol{\psi}(t-\Delta)} \hat{\boldsymbol{\Lambda}}(t)^{-1} \boldsymbol{y}(t) \end{aligned}$
$\hat{\boldsymbol{g}}=\hat{\boldsymbol{R}}^{-1} \hat{\boldsymbol{r}}$
$g$ 为预测矩阵 $\mathcal{G}=\left\{\boldsymbol{G}(\tau)\right\}_{\Delta \leq \tau \leq \Delta+K-1}$ 的列向量拼接起来的向量：
$\boldsymbol{g}=\left[\begin{array}{c} \boldsymbol{g}^{1}(\Delta) \\ \vdots \\ \boldsymbol{g}^{N}(\Delta) \\ \hline \vdots \\ \hline \boldsymbol{g}^{1}\left(\Delta+K-1\right) \\ \vdots \\ g^{N}\left(\Delta+K-1\right) \end{array}\right]$
其中 $\boldsymbol{g}^{n}(\tau)$ 代表 $\boldsymbol{G}(\tau)$ 的第n列。