回声消除延时估计TDE的一些方法:时域互相关和广义互相关(GCC-PHAT)

  在音频信号处理领域,尤其是在回声消除和语音通信中,时间延迟估计(Time Delay Estimation,TDE)是一个至关重要的任务。回声消除技术旨在减少或消除由于信号反射而产生的回声,这在语音通信中尤为重要。为了有效实现这一目标,系统必须准确估计发送信号和接收信号之间的延迟。通过了解这一延迟,系统能够更好地调整信号处理算法,从而优化回声消除效果,提升语音质量和通信清晰度。TDE 的实现通常依赖于互相关分析、时频分析等方法,以确保在各种环境条件下都能准确捕捉到延迟信息。随着技术的发展,深度学习等新兴方法也逐渐被应用于延迟估计,进一步提高了其准确性和鲁棒性。

  上面为远端参考信号,下面为麦克风接收信号。
在这里插入图片描述

1、基本时域互相关

1.1 算法原理

什么是互相关?

  互相关是一种用于测量两个信号之间相似性的统计方法。它通过计算一个信号在另一个信号上的滑动(或延迟)来评估它们之间的相似性。互相关函数可以帮助我们找到一个信号相对于另一个信号的最佳对齐位置,从而估计它们之间的延迟。

时域互相关的工作原理

  在时域互相关中,我们将一个信号(例如,信号 2)与另一个信号(例如,信号 1)进行比较。具体步骤如下:

  1. 信号分帧:将信号分成多个小帧,以便进行局部分析。
  2. 计算互相关:对于每一帧信号 2,计算它与信号 1 的当前帧之间的互相关。
  3. 寻找最大值:在互相关结果中找到最大值及其对应的延迟,这个延迟即为信号 2 相对于信号 1 的估计延迟。

互相关的公式如下:
R x y ( τ ) = ∑ n = − ∞ ∞ x [ n ] y [ n + τ ] R_{xy}(\tau) = \sum_{n=-\infty}^{\infty} x[n] y[n + \tau] Rxy(τ)=n=x[n]y[n+τ]

其中, R x y ( τ ) R_{xy}(\tau) Rxy(τ) 是互相关函数, x [ n ] x[n] x[n] y [ n ] y[n] y[n] 是两个信号, τ \tau τ 是延迟。

1.2. 代码思路

以下是实现时域互相关的代码思路:

  1. 读取音频文件:使用 librosa 库读取两个音频文件,并确保它们的采样频率相同。
  2. 设置帧参数:定义帧大小和帧移(通常设置为 1 秒)。
  3. 分帧处理:对信号 2 的每一帧进行处理,提取当前帧并与信号 1 的当前帧进行互相关计算。
  4. 计算互相关:使用 numpy.correlate 函数计算互相关。
  5. 延迟估计:找到互相关的最大值及其对应的延迟,并将延迟值转换为时间(秒)。
  6. 可视化结果:使用 matplotlib 绘制信号波形和延迟估计结果。
    以下是实现时域互相关的完整代码示例:
import numpy as np
import matplotlib.pyplot as plt
import librosa

# 读取音频文件
signal1, fs1 = librosa.load('1.wav', sr=None)  # 读取第一个音频文件
signal2, fs2 = librosa.load('2.wav', sr=None)  # 读取第二个音频文件

# 确保两个信号的采样频率相同
if fs1 != fs2:
    raise ValueError("Sampling frequencies of the two audio files must be the same.")

# 设置帧参数
frame_size = fs1  # 帧大小为1秒
hop_size = fs1    # 帧移为1秒
num_frames1 = (len(signal1) - frame_size) // hop_size + 1
num_frames2 = (len(signal2) - frame_size) // hop_size + 1

# 存储延迟估计
delay_estimates = []

# 对信号2的每一帧进行处理
for i in range(num_frames2):
    # 提取信号2的当前帧
    start_idx2 = i * hop_size
    end_idx2 = start_idx2 + frame_size
    frame2 = signal2[start_idx2:end_idx2]

    # 提取信号1的当前帧
    start_idx1 = i * hop_size
    end_idx1 = start_idx1 + frame_size

    # 确保不超出信号长度
    if end_idx1 <= len(signal1):
        combined_frame1 = signal1[start_idx1:end_idx1]
    else:
        # 如果超出边界,填充零
        combined_frame1 = np.concatenate((signal1[start_idx1:], np.zeros(end_idx1 - len(signal1))))

    # 计算互相关
    correlation = np.correlate(frame2, combined_frame1, mode='full')

    # 找到最大互相关值及其对应的延迟
    max_corr = np.max(correlation)
    max_idx = np.argmax(correlation)
    delay_estimate = max_idx - (len(combined_frame1) - 1)  # 计算延迟
    delay_estimates.append(delay_estimate)

# 将样本延迟转换为时间(秒)
delay_estimates_time = np.array(delay_estimates) / fs1  # 转换为秒

# 可视化信号1和信号2
plt.figure(figsize=(12, 8))

# 绘制信号1
plt.subplot(2, 1, 1)
plt.plot(signal1, label='Signal 1')
plt.title('Signal 1')
plt.xlabel('Samples')
plt.ylabel('Amplitude')
plt.grid()
plt.legend()

# 绘制信号2
plt.subplot(2, 1, 2)
plt.plot(signal2, label='Signal 2', color='orange')
plt.title('Signal 2')
plt.xlabel('Samples')
plt.ylabel('Amplitude')
plt.grid()
plt.legend()

plt.tight_layout()
plt.show()

# 可视化延迟估计
plt.figure(figsize=(12, 6))
plt.plot(delay_estimates_time, label='Estimated Delay for each Frame (in seconds)')
plt.title('Estimated Delay per Frame')
plt.xlabel('Frame Index')
plt.ylabel('Estimated Delay [seconds]')
plt.legend()
plt.grid()
plt.show()

# 打印最后一帧的延迟估计
if delay_estimates:
    print(f"Estimated Delay for the last frame: {delay_estimates_time[-1]:.6f} seconds")
else:
    print("No delay estimates were calculated.")

在这里插入图片描述

2、广义互相关(GCC)

广义互相关(Generalized Cross-Correlation, GCC)是一种用于信号延时估计的技术,特别适用于处理具有噪声和其他干扰的信号。GCC 方法通过对信号进行频域处理来提高延时估计的准确性,尤其是在信号质量较差的情况下。

2.1. GCC 的基本原理

GCC 的工作原理

GCC 的基本思想是通过对信号进行傅里叶变换,将信号从时域转换到频域,然后在频域中计算互相关。GCC 的公式可以表示为:

R x y ( τ ) = ∫ − ∞ ∞ X ( f ) Y ∗ ( f ) e j 2 π f τ d f R_{xy}(\tau) = \int_{-\infty}^{\infty} X(f) Y^*(f) e^{j 2 \pi f \tau} df Rxy(τ)=X(f)Y(f)ej2πfτdf

其中:

  • R x y ( τ ) R_{xy}(\tau) Rxy(τ) 是信号 x x x y y y 之间的广义互相关函数。
  • X ( f ) X(f) X(f) Y ( f ) Y(f) Y(f) 分别是信号 x x x y y y 的傅里叶变换。
  • Y ∗ ( f ) Y^*(f) Y(f) 是信号 y y y 的共轭复数。
  • e j 2 π f τ e^{j 2 \pi f \tau} ej2πfτ 是一个相位因子,用于引入延迟 τ \tau τ

PHAT 加权

在 GCC 方法中,通常会使用一个加权函数(如相位变换)来增强互相关的性能。最常用的加权函数是 相位变换(Phase Transform, PHAT),它的公式如下:

R x y P H A T ( τ ) = X ( f ) Y ∗ ( f ) ∣ X ( f ) Y ∗ ( f ) ∣ R_{xy}^{PHAT}(\tau) = \frac{X(f) Y^*(f)}{|X(f) Y^*(f)|} RxyPHAT(τ)=X(f)Y(f)X(f)Y(f)

这种加权方式可以提高在噪声环境中的延时估计准确性。

2.2 GCC 的优点

  1. 抗噪声能力:GCC 方法在处理噪声信号时表现良好,能够提供更准确的延时估计。
  2. 频域处理:通过频域处理,GCC 可以更有效地捕捉信号的特征。
  3. 灵活性:可以根据不同的应用需求选择不同的加权函数。

2.3. GCC 的应用

GCC 方法广泛应用于以下领域:

  • 语音处理:用于语音信号的延时估计和回声消除。
  • 音频信号处理:用于音频信号的同步和分析。
  • 雷达和声纳:用于目标检测和定位。

2.4. 代码实现

import matplotlib.pyplot as plt
import numpy as np
import soundfile as sf


def gcc_phat(sig, refsig, fs, max_tau=None, interp=1):
    n = sig.shape[0] + refsig.shape[0]
    # print(n)
    # Generalized Cross Correlation Phase Transform
    SIG = np.fft.rfft(sig, n=n)
    REFSIG = np.fft.rfft(refsig, n=n)
    R = SIG * np.conj(REFSIG)

    cc = np.fft.irfft(R / (np.abs(R) + 1e-15), n=(interp * n))

    max_shift = int(interp * n / 2)
    if max_tau:
        max_shift = np.minimum(int(interp * fs * max_tau), max_shift)

    cc = np.concatenate((cc[-max_shift:], cc[:max_shift + 1]))

    # find max cross correlation index
    shift = np.argmax(np.abs(cc)) - max_shift

    tau = shift / float(interp * fs)

    return tau


# 读取音频文件
signal1, sr = sf.read('1.wav')  # 读取第一个音频文件
signal2, sr = sf.read('2.wav')  # 读取第二个音频文件

# 设置帧参数
frame_size = sr*4  # 帧大小为1秒
hop_size = sr  # 帧移为1秒
num_frames1 = (len(signal1) - frame_size) // hop_size + 1
num_frames2 = (len(signal2) - frame_size) // hop_size + 1
# 存储延迟估计
delay_estimates = []
# 对信号2的每一帧进行处理
for i in range(num_frames2):
    # 提取信号2的当前帧
    start_idx2 = i * hop_size
    end_idx2 = start_idx2 + frame_size
    frame2 = signal2[start_idx2:end_idx2]

    # 提取信号1的当前帧
    start_idx1 = i * hop_size
    end_idx1 = start_idx1 + frame_size

    # 确保不超出信号长度
    if end_idx1 <= len(signal1):
        combined_frame1 = signal1[start_idx1:end_idx1]
    else:
        # 如果超出边界,填充零
        combined_frame1 = np.concatenate((signal1[start_idx1:], np.zeros(end_idx1 - len(signal1))))

    # 计算时延(以采样点为单位)
    tau = gcc_phat(frame2, combined_frame1, fs=sr, interp=1)
    print(tau)
    delay_estimates.append(tau)

# 可视化延迟估计
plt.figure(figsize=(12, 6))
plt.plot(delay_estimates, label='Estimated Delay for each Frame (in seconds)')
plt.title('Estimated Delay per Frame')
plt.xlabel('Frame Index')
plt.ylabel('Estimated Delay [seconds]')
plt.legend()
plt.grid()
plt.show()

# 打印最后一帧的延迟估计
if delay_estimates:
    print(f"Estimated Delay for the last frame: {delay_estimates[-1]:.6f} seconds")
else:
    print("No delay estimates were calculated.")

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值