webrtc降噪-QuantileNoiseEstimator类源码分析与算法原理

最新推荐文章于 2025-11-30 19:11:04 发布

原创最新推荐文章于 2025-11-30 19:11:04 发布 · 995 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#webrtc #算法

音视频相关算法专栏收录该内容

26 篇文章

订阅专栏

QuantileNoiseEstimator在WebRTC中负责噪声功率谱的稳健估计，是噪声抑制系统的核心组件。该类采用分位数回归算法，通过对信号频谱进行统计分布分析来估计背景噪声。其核心原理是在对数域维护多个并行估计器，通过非对称更新策略（向上调整0.25权重，向下调整0.75权重）实现保守的噪声估计。算法使用密度自适应步长，在启动阶段采用长初始化保证稳定性，最终输出平滑可靠的噪声频谱估计，为后续谱减法和维纳滤波等噪声抑制技术提供关键的噪声参考基准。

1. 核心功能

基于分位数统计的噪声频谱估计器，通过对信号频谱进行分位数回归分析，估计噪声功率谱密度。

2. 核心算法原理

分位数回归噪声估计

算法基于以下数学原理：

分位数更新公式：

log_quantile_new = log_quantile_old ± multiplier

其中：

当 log_spectrum > log_quantile 时：+ 0.25 * multiplier
当 log_spectrum ≤ log_quantile 时：- 0.75 * multiplier

乘子计算：

const float delta = density_[j] > 1.f ? 40.f / density_[j] : 40.f;
const float multiplier = delta * one_by_counter_plus_1;

密度估计更新：

if (fabs(log_spectrum[i] - log_quantile_[j]) < kWidth) {
    // 当频谱值在分位数附近窗口内时，更新密度估计
    density_[j] = (counter_[s] * density_[j] + kOneByWidthPlus2) * one_by_counter_plus_1;
}

3. 关键数据结构

// 密度估计数组：kSimult组，每组kFftSizeBy2Plus1个频点
std::array<float, kSimult * kFftSizeBy2Plus1> density_;

// 对数分位数估计数组
std::array<float, kSimult * kFftSizeBy2Plus1> log_quantile_;

// 最终量化噪声估计（线性域）
std::array<float, kFftSizeBy2Plus1> quantile_;

// 各估计器计数器
std::array<int, kSimult> counter_;

// 总更新次数
int num_updates_ = 1;

4. 核心方法详解

构造函数

QuantileNoiseEstimator::QuantileNoiseEstimator() {
  quantile_.fill(0.f);           // 初始化量化估计为0
  density_.fill(0.3f);           // 初始化密度估计为0.3
  log_quantile_.fill(8.f);       // 初始化对数分位数为8

  // 设置各并行估计器的启动计数器
  constexpr float kOneBySimult = 1.f / kSimult;
  for (size_t i = 0; i < kSimult; ++i) {
    counter_[i] = floor(kLongStartupPhaseBlocks * (i + 1.f) * kOneBySimult);
  }
}

Estimate 方法

void QuantileNoiseEstimator::Estimate(
    rtc::ArrayView<const float, kFftSizeBy2Plus1> signal_spectrum,
    rtc::ArrayView<float, kFftSizeBy2Plus1> noise_spectrum) {
    
  // 1. 对信号频谱取对数近似
  std::array<float, kFftSizeBy2Plus1> log_spectrum;
  LogApproximation(signal_spectrum, log_spectrum);

  int quantile_index_to_return = -1;
  
  // 2. 并行更新多个估计器
  for (int s = 0, k = 0; s < kSimult; ++s, k += static_cast<int>(kFftSizeBy2Plus1)) {
    const float one_by_counter_plus_1 = 1.f / (counter_[s] + 1.f);
    
    // 3. 更新每个频点的分位数估计
    for (int i = 0, j = k; i < static_cast<int>(kFftSizeBy2Plus1); ++i, ++j) {
      // 根据密度调整更新步长
      const float delta = density_[j] > 1.f ? 40.f / density_[j] : 40.f;
      const float multiplier = delta * one_by_counter_plus_1;
      
      // 分位数更新：向上或向下调整
      if (log_spectrum[i] > log_quantile_[j]) {
        log_quantile_[j] += 0.25f * multiplier;  // 向上调整幅度较小
      } else {
        log_quantile_[j] -= 0.75f * multiplier;  // 向下调整幅度较大
      }

      // 4. 密度估计更新（仅在分位数附近窗口内）
      constexpr float kWidth = 0.01f;
      constexpr float kOneByWidthPlus2 = 1.f / (2.f * kWidth);
      if (fabs(log_spectrum[i] - log_quantile_[j]) < kWidth) {
        density_[j] = (counter_[s] * density_[j] + kOneByWidthPlus2) * one_by_counter_plus_1;
      }
    }

    // 5. 检查估计器是否完成启动阶段
    if (counter_[s] >= kLongStartupPhaseBlocks) {
      counter_[s] = 0;
      if (num_updates_ >= kLongStartupPhaseBlocks) {
        quantile_index_to_return = k;  // 标记该估计器结果可用
      }
    }
    ++counter_[s];
  }

  // 6. 启动阶段处理：使用最后一个估计器
  if (num_updates_ < kLongStartupPhaseBlocks) {
    quantile_index_to_return = kFftSizeBy2Plus1 * (kSimult - 1);
    ++num_updates_;
  }

  // 7. 将对数分位数转换回线性域
  if (quantile_index_to_return >= 0) {
    ExpApproximation(
        rtc::ArrayView<const float>(&log_quantile_[quantile_index_to_return],
                                    kFftSizeBy2Plus1),
        quantile_);
  }

  // 8. 输出噪声频谱估计
  std::copy(quantile_.begin(), quantile_.end(), noise_spectrum.begin());
}

5. 设计亮点

多估计器并行：使用 kSimult=3 个并行估计器，在不同时间尺度上收敛
对数域处理：在对数域进行统计估计，提高数值稳定性
自适应步长：基于密度估计调整更新步长，密度高时步长小
启动阶段管理：长启动阶段确保估计稳定性
非对称更新：向下调整幅度(0.75)大于向上调整幅度(0.25)，偏向保守估计

6. 典型工作流程

时序图

调用者          QuantileNoiseEstimator
  |                    |
  |--Estimate()------->|
  |                    |--LogApproximation()
  |                    |--for s=0 to kSimult-1
  |                    |   |--更新分位数估计
  |                    |   |--更新密度估计
  |                    |   |--检查计数器
  |                    |<--
  |                    |--启动阶段检查
  |                    |--ExpApproximation()
  |                    |--复制结果
  |<--noise_spectrum---|