SOLA同步叠加相加运算 - 计算模型

原创已于 2025-11-19 10:36:48 修改 · 998 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #降噪 #音频

于 2025-11-19 09:14:55 首次发布

SOLA 算法数学原理

1. 基本数学模型

设两个音频段：

历史缓冲区： $h[n], n = 0, 1, ..., L_h-1$
当前帧： $x[n], n = 0, 1, ..., L_x-1$

其中重叠区域长度为 $L_{overlap}$ 。

2. 互相关函数计算

寻找最佳重叠位置的互相关函数：

$\sum_{n=0}^{L_{overlap}-1} h[L_h - L_{overlap} + n] \cdot x[k + n]$

其中 $k$ 是搜索偏移量， $k = 0, 1, ..., L_{search}-1$

3. 归一化互相关（避免幅度影响）

$R^[k]=R[k]∑n=0Loverlap−1h2[Lh−Loverlap+n]⋅∑n=0Loverlap−1x2[k+n]\hat{R}[k] = \frac{R[k]}{\sqrt{\sum_{n=0}^{L_{overlap}-1} h^2[L_h - L_{overlap} + n] \cdot \sum_{n=0}^{L_{overlap}-1} x^2[k + n]}}$

4. 最佳偏移位置

$kopt=arg⁡max⁡kR^[k]k_{opt} = \arg\max_k \hat{R}[k]$

5. 交叉淡化处理

交叉淡化窗口函数满足能量守恒：

$wout[n]+win[n]=1,n=0,1,...,Loverlap−1w_{out}[n] + w_{in}[n] = 1, \quad n = 0, 1, ..., L_{overlap}-1$

常用窗口函数：

5.1 汉宁窗 (Hann)

$wout[n]=0.5×(1−cos⁡(πnLoverlap−1))w_{out}[n] = 0.5 \times \left(1 - \cos\left(\frac{\pi n}{L_{overlap}-1}\right)\right)$
$win[n]=0.5×(1+cos⁡(πnLoverlap−1))w_{in}[n] = 0.5 \times \left(1 + \cos\left(\frac{\pi n}{L_{overlap}-1}\right)\right)$

5.2 正弦窗

$wout[n]=sin⁡(π2×Loverlap−1−nLoverlap−1)w_{out}[n] = \sin\left(\frac{\pi}{2} \times \frac{L_{overlap}-1-n}{L_{overlap}-1}\right)$
$win[n]=sin⁡(π2×nLoverlap−1)w_{in}[n] = \sin\left(\frac{\pi}{2} \times \frac{n}{L_{overlap}-1}\right)$