理想比值掩蔽（IRM）和理想幅度掩蔽（IAM）在语音分离中的应用

本文链接：https://blog.youkuaiyun.com/qq_34941290/article/details/144617419

在语音增强和分离领域，理想比值掩蔽（IRM）和理想幅度掩蔽（IAM）是两种重要的技术。它们通过不同的方式处理语音信号，以提高语音的质量和可懂度。以下是这两种技术的定义、优势和劣势的详细介绍，以及它们的计算公式。

理想比值掩蔽（IRM）

定义：
IRM是一种基于语音和噪声正交（不相关）的假设下的掩蔽方法。它直接刻画了时频单元内纯净语音能量和带噪语音能量的比值。IRM的取值范围在0到1之间，值越大代表时频单元内语音占的比重越高。

计算公式：
$\text{IRM}(t,f)=\left(\frac{|S(t,f)|^2}{|S(t,f)|^2+|N(t,f)|^2}\right)^\beta$

其中 $S (t, f)$ 是纯净语音信号的STFT（Short-Time Fourier Transform，短时傅里叶变换）的复数谱， $N (t, f)$ 是噪声信号的STFT复数谱， $\beta$ 是一个可调节尺度因子，一般取0.5。

$|S(t,f)|=\sqrt{\text{Re}(S(t,f))^2+\text{Im}(S(t,f))^2}$

$|N(t,f)|=\sqrt{\text{Re}(N(t,f))^2+\text{Im}(N(t,f))^2}$

优势：

IRM提供了一个连续的值范围（0到1），因此可以更准确地刻画目标语音，有效提升语音的质量和可懂度。
IRM的平方形式就是经典的维纳滤波器（Wiener Filter），它是均方误差意义上的最优滤波器。

劣势：

使用未处理的相位信息进行语音重构，而相位对于感知质量也很重要。

理想幅度掩蔽（IAM）

定义：
IAM，也称为Spectral Magnitude Mask（SMM），不对噪声和语音做出正交假设。IAM刻画的是纯净语音和带噪语音的能量比值。由于语音和噪声叠加过程中可能存在反相相消的情况，IAM的值可以是任意正实数。

计算公式：
$\text{IAM}(t, f) = \frac{\left|S(t, f)\right|}{\left|S(t, f) + N(t, f) \right|}$
这里 $S (t, f)$ 和 $Y (t, f)$ 分别是纯净语音和带噪声的语音STFT复数谱。
优势：

IAM考虑了语音和噪声叠加时可能出现的反相相消情况，这使得IAM在某些情况下能更准确地估计语音信号。
为了稳定训练，IAM一般会进行截断到一定的范围内，如[0, 1]或[0, 2]，这有助于避免训练过程中的异常值。

劣势：

如果目标中出现非常大的数值，会导致训练过程出现异常，因此需要进行截断处理。

总结

IRM和IAM都是有效的语音分离技术，它们各自有不同的优势和劣势。IRM在理论上具有优越性，因为它提供了连续的值范围，并且与维纳滤波器有直接的联系。然而，它在相位信息处理上存在不足。IAM则在处理语音和噪声叠加时更为灵活，但需要对输出值进行截断以避免训练过程中的问题。在实际应用中，选择哪种技术取决于具体的噪声条件和语音增强的目标。

下面是使用 Python 实现理想比值掩蔽（IRM）和理想幅度掩蔽（IAM）计算的示例代码。
在这里插入图片描述

import numpy as np
import librosa
import matplotlib.pyplot as plt


def compute_stft(signal, sr, n_fft=2048, hop_length=512):
    """计算短时傅里叶变换（STFT）"""
    return librosa.stft(signal, n_fft=n_fft, hop_length=hop_length)


def compute_irm(signal_s, signal_n, beta=0.5):
    """计算理想比值掩蔽（IRM）"""
    # 计算STFT
    S = compute_stft(signal_s, sr)
    N = compute_stft(signal_n, sr)

    # 计算幅度
    S_mag = np.abs(S)
    N_mag = np.abs(N)

    # 计算IRM
    irm = (S_mag ** 2) / (S_mag ** 2 + N_mag ** 2)
    irm = irm ** beta  # 应用可调节尺度因子

    return irm


def compute_iam(signal_s, signal_n):
    """计算理想幅度掩蔽（IAM）"""
    # 计算STFT
    S = compute_stft(signal_s, sr)
    Y = compute_stft(signal_s + signal_n, sr)

    # 计算幅度
    S_mag = np.abs(S)
    Y_mag = np.abs(Y)

    # 计算IAM
    iam = S_mag / Y_mag

    return iam


def match_length(signal_s, signal_n):
    """确保两个信号具有相同的长度"""
    min_length = min(len(signal_s), len(signal_n))
    return signal_s[:min_length], signal_n[:min_length]


def plot_masks(irm, iam):
    """可视化IRM和IAM在同一图中"""
    plt.figure(figsize=(12, 6))

    # 绘制IRM
    plt.subplot(1, 2, 1)
    plt.imshow(20 * np.log10(np.abs(irm) + 1e-10), aspect='auto', origin='lower', cmap='jet')
    plt.colorbar(label='Magnitude (dB)')
    plt.title('Ideal Ratio Mask (IRM)')
    plt.xlabel('Time Frames')
    plt.ylabel('Frequency Bins')

    # 绘制IAM
    plt.subplot(1, 2, 2)
    plt.imshow(20 * np.log10(np.abs(iam) + 1e-10), aspect='auto', origin='lower', cmap='jet')
    plt.colorbar(label='Magnitude (dB)')
    plt.title('Ideal Amplitude Mask (IAM)')
    plt.xlabel('Time Frames')
    plt.ylabel('Frequency Bins')

    plt.tight_layout()
    plt.show()


# 示例用法
if __name__ == "__main__":
    signal_s, sr = librosa.load('v.wav', sr=None)  # 纯净语音信号
    signal_n, sr = librosa.load('n.wav', sr=None)  # 噪声信号

    # 确保两个信号具有相同的长度
    signal_s, signal_n = match_length(signal_s, signal_n)

    # 计算IRM和IAM
    irm = compute_irm(signal_s, signal_n)
    iam = compute_iam(signal_s, signal_n)

    plot_masks(irm, iam)