语音去混响之MCLP算法

最新推荐文章于 2025-10-24 12:41:20 发布

原创最新推荐文章于 2025-10-24 12:41:20 发布 · 1.3w 阅读

71 ·

CC 4.0 BY-SA版权

文章标签：

#MCLP #WPE #去混响 #语音增强

语音降噪专栏收录该内容

5 篇文章

订阅专栏

本文聚焦MISO版本的MCLP算法，它也叫WPE算法，用于语音信号去混响。介绍了MCLP模型、目标函数、离线解和自适应解，给出了相关公式。通过四麦克风圆阵采集语音数据进行仿真，结果显示该算法能有效去除混响。还提及SISO和MIMO版本算法。

概述

MCLP（Multichannel Linear Prediction）算法也被称为WPE（Weighted Prediction Error）算法，是实现语音信号去混响的一种方法。本文关注MISO（Multiple Input Single Output）版本的MCLP算法的原理，即输入为多个麦克风接收信号，输出为一路去除混响之后的语音信号。主要内容包括MCLP模型、待求解的目标函数、离线解，自适应解，并给出仿真波形。
　　符号表示：对语音信号做短时傅里叶变换， $n$ 表示帧号， $l$ 表示频点， $M$ 表示麦克风个数。 $y_{1,n,l}$ 表示第一个麦克风接收的第 $n$ 帧第 $l$ 个频点的信号， $s_{n,l}$ 表示纯净信号，将多个麦克风的接收信号写成向量形式为 $yn,l=(y1,n,l,y2,n,l,...,yM,n,l)T\textbf{y}_{n,l}=(y_{1,n,l},y_{2,n,l},...,y_{M,n,l})^T$ ，将 $n−Δn-\Delta$ 帧到 $n−Δ−K+1n-\Delta-K+1$ 帧的接收信号记为 $yˉn−Δ,l=(yn−Δ,lT,...,yn−Δ−K+1,lT)T\bar{\textbf{y}}_{n-\Delta,l}=(\textbf{y}_{n-\Delta,l}^T,..., \textbf{y}_{n-\Delta-K+1,l}^T)^T$ 。

原理

MCLP模型

MCLP模型表示当前接收信号由当前纯净信号与过去若干帧的接收信号线性组合而成。忽略噪声，用公式表示如下
　

y1,n,l=glHyˉn−Δ,l+sn,ly_{1,n,l}=\textbf{g}_l^H \bar{\textbf{y}}_{n-\Delta,l}+s_{n,l}

　
这里

gl\textbf{g}_l

为长度为

M K

的列向量，被称为线性系数（linear coefficients）,去混响算法的目的就是估计出

gl\textbf{g}_l

，从当前接收信号

y_{1,n,l}

中减去混响部分“

glHyˉn−Δ,l\textbf{g}_l^H \bar{\textbf{y}}_{n-\Delta,l}

”,从而恢复出

s_{n,l}

。

目标函数

求解上述 $gl\textbf{g}_l$ 的思路是最大化似然函数。假设已知 $n = 1$ ~ $N$ 帧的接收信号，则最优化问题表示为
　

\sum\limits_{n=1}^N log p(y_{1,n,l})

　　<=>

\sum\limits_{n=1}^N log p(y_{1,n,l}|s_{n,l})p(s_{n,l})

　
由MCLP模型，上式中

p(y1,n,l∣sn,l)=δ(y1,n,l−glHyˉn−Δ,l)p(y_{1,n,l}|s_{n,l})=\delta(y_{1,n,l}-\textbf{g}_l^H \bar{\textbf{y}}_{n-\Delta,l})

,并假设

s_{n,l}

服从时变复高斯分布，即

s_{n,l}

NC(0,λn,l)N_C(0,\lambda_{n,l})

，将高斯分布的概率表达式代入上式，可知上述最优化问题等价于
　
　　

min⁡λn,l&gt;0,gl∑n=1N(∣sn,l∣2λn,l+logπλn,l)\min \limits_{\lambda_{n,l}&gt;0,\textbf{g}_l} \sum\limits_{n=1}^N (\frac{|s_{n,l}|^2}{\lambda_{n,l}}+log\pi\lambda_{n,l})

离线解

上式目标函数包含两组参数： $gl\textbf{g}_l$ 与 $λn,l\lambda_{n,l}$ 。可用EM算法求解，首先固定 $gl\textbf{g}_l$ 不变求解 $λn,l\lambda_{n,l}$ ，有
　

λn,l=∣y1,n,l−glHyˉn−Δ,l∣2\lambda_{n,l}=|y_{1,n,l}-\textbf{g}_l^H \bar{\textbf{y}}_{n-\Delta,l}|^2

　
再固定

λn,l\lambda_{n,l}

不变求解

gl\textbf{g}_l

，即
　
　　

min⁡gl∑n=1N∣y1,n,l−glHyˉn−Δ,l∣2λn,l\min \limits_{\textbf{g}_l} \sum\limits_{n=1}^N \frac{|y_{1,n,l}-\textbf{g}_l^H \bar{\textbf{y}}_{n-\Delta,l}|^2}{\lambda_{n,l}}

　
注意到上式目标函数为

gl\textbf{g}_l

的二次函数，对

gl\textbf{g}_l

求导置零可得解析解：
　　
　　

gl=(∑n=1Nyˉn−Δ,lyˉn−Δ,lHλn,l)−1(yˉn−Δ,ly1,n,l∗λn,l)\textbf{g}_l=(\frac{\sum\limits_{n=1}^N \bar{\textbf{y}}_{n-\Delta,l}\bar{\textbf{y}}_{n-\Delta,l}^H}{\lambda_{n,l}})^{-1}(\frac{\bar{\textbf{y}}_{n-\Delta,l} y_{1,n,l}^*}{\lambda_{n,l}})

　
不断重复上式计算

gl\textbf{g}_l

与

λn,l\lambda_{n,l}

直至收敛即可。该

gl\textbf{g}_l

的解析解通常被称为离线解，因为需要已知

n = 1

N

帧所有接收信号来计算去混响之后的信号，属于“batch processing”。下一部分讨论

gl\textbf{g}_l

的自适应解。

自适应解

自适应解也称为在线解，使算法可用于实时处理信号。将求解 $gl\textbf{g}_l$ 的目标函数加入指数因子，
　

min⁡gl∑n=1NαN−n∣y1,n,l−glHyˉn−Δ,l∣2λn,l\min \limits_{\textbf{g}_l} \sum\limits_{n=1}^N \alpha^{N-n}\frac{|y_{1,n,l}-\textbf{g}_l^H \bar{\textbf{y}}_{n-\Delta,l}|^2}{\lambda_{n,l}}

　
采用RLS（Recursive Least Square）算法求解上式，可得
　
　　

kl(n)=Σl(n−1)yˉn−Δ,lαλn,l+yˉn−Δ,lHΣl(n−1)yˉn−Δ,l\textbf{k}_l(n)=\frac{\Sigma_l(n-1) \bar{\textbf{y}}_{n-\Delta,l} }{\alpha \lambda_{n,l}+\bar{\textbf{y}}_{n-\Delta,l}^H \Sigma_l(n-1)\bar{\textbf{y}}_{n-\Delta,l}}

Σl(n)=Σl(n−1)−kl(n)yˉn−Δ,lHΣl(n−1)α\Sigma_l(n)=\frac{\Sigma_l(n-1)-\textbf{k}_l(n)\bar{\textbf{y}}_{n-\Delta,l}^H \Sigma_l(n-1)}{\alpha}

gl(n)=gl(n−1)+kl(n)(y1,n,l−glH(n−1)yˉn−Δ,l)\textbf{g}_l(n)=\textbf{g}_l(n-1)+\textbf{k}_l(n)(y_{1,n,l}-\textbf{g}_l^H(n-1) \bar{\textbf{y}}_{n-\Delta,l})

　
其中

kl\textbf{k}_l

为

M K

长度的列向量，

Σl\Sigma_l

为

MK×MKMK\times MK

的复矩阵。

仿真图形

使用麦克风阵列为彼此间距6cm的四麦克风圆阵，在室内带一定混响的安静环境采集语音数据。采用上文所述自适应MCLP算法处理语音数据，输出一路数据，将其中一路输入信号与算法输出信号对比如下。从波形上可看出处理后的语音拖尾变小，可见MCLP能有效去除混响。

图1 MCLP算法处理语音
　

Reference

本文主要参照[1]和[2]，其中离线解部分参照[1]，自适应解部分参照[2]。
常见的MCLP算法还包括SISO（Single Input Single Output）版本和MIMO（Multiple Input Multiple Output）版本。其中SISO为本文MISO版本的算法的一个特例，上述推导过程只需修改使M=1即可。MIMO版本通常要求输出的多路去混响信号保持TDOA信息不变，以便后续接波束算法。MIMO版本的MCLP算法推导与本文有所不同，离线解可参照[3]、自适应解可参照[4]。

[1] GB/T 7714 Jukic A , Van Waterschoot T , Gerkmann T , et al. Multi-Channel Linear Prediction-Based Speech Dereverberation With Sparse Priors[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(9):1509-1520.
[2] Yoshioka T , Tachibana H , Nakatani T , et al. Adaptive dereverberation of speech signals with speaker-position change detection[C]// IEEE International Conference on Acoustics. IEEE, 2009.
[3] Yoshioka T , Nakatani T . Generalization of Multi-Channel Linear Prediction Methods for Blind MIMO Impulse Response Shortening[J]. IEEE Transactions on Audio Speech & Language Processing, 2012, 20(10):2707-2720.
[4] Nakatani T , Yoshioka T . Dereverberation for Reverberation-Robust Microphone Arrays[C]// Signal Processing Conference. IEEE, 2014.