论文出自:https://ieeexplore.ieee.org/document/988717
Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement
一、步骤与结构
步骤上,论文主要分为三步:
1、推导噪声估计由来的公式,涉及到一个未知量“语音存在概率”,以及多个经验值;
2、推导上式中“语音存在概率”的由来,以及多个经验值;
3、经验值的选取;
二、个人见解
1、噪声公式的推导:
上式中,可看出,噪声方差的估计取决于四个方面:
a、上一帧估计的噪声方差;
b、当前帧的信号幅度;
c、语音存在概率;
d、部分平滑经验值;
具体推导可参考论文,但是由上式可总结出:噪声的估计由两部分组成:
a、,语音存在概率与上一帧噪声估计的乘积,该式意味着,当语音存在的概率比较大时,噪声估计会接近于上一帧的噪声估计,因为当前帧可能存在语音了;
b、,该式可理解为,若当前帧的语音存在概率比较小,即噪声存在比较大时,则噪声的更新是,以上一帧的噪声估计与当前帧的信号输入的加权求和估计得出;
上式中除了P外,其他的参数都是平滑经验参数,可参考论文推导;
2、语音存在概率估计:
如何得到语音存在概率是关键, 个人理解是,首先给出一个初始值,然后跟踪计算出信号中最小的能量值,并视为噪声值,接着利用当前帧的信号能量与最小能量值的比值与阈值相比,得出的比值,若大于阈值,则证明语音很有可能存在,则初始值根据推导公式会越来越大,然后稳定。若小于阈值,则证明语音存在概率小,根据推导公式会越来越小。有点感觉是一种适应的学习。如下所示:
式中,I 可理解为,大于阈值就是1,少于阈值就是0;
式中可进一步理解为,当少于阈值时,I 为 0 ,则语音存在的概率就等于上一帧概率 乘以 一个少于1的数ap(文章中取0.95),所以语音存在概率会更小,若一直都没有说话,就会越小。
当阈值一直都是大于1时,可得出,语音很有可能会存在,则存在概率就约等于 之前的 语音存在概率乘以0.95 + 0.005,会维持在一个较高的水平。
所以该式能粗略并且跟踪语音的变化。
而上述中,提及到的,需要跟踪最小的频谱的值
,与当前帧的输入的比值。
由下式求得:
上式可理解为Smin 为追踪/保存 语音频谱中最小的值,Stmp为追踪最新的一帧中最小频谱的值;不断迭代更新。最后再与阈值相比
部分阈值的选取如下,出自论文: