短时傅里叶变换（STFT）与逆变换（ISTFT）

niuguangshuo

已于 2025-04-02 20:55:00 修改

阅读量3.8k

点赞数 13

分类专栏：音频算法文章标签： python 信号处理傅里叶分析

于 2024-11-05 21:40:17 首次发布

本文链接：https://blog.youkuaiyun.com/qq_34941290/article/details/143527583

版权

音频算法专栏收录该内容

13 篇文章

订阅专栏

引言

短时傅里叶变换（Short-Time Fourier Transform, STFT）是一种将信号分解为时间和频率成分的技术，广泛应用于音频处理、语音分析和音乐信息检索等领域。通过 STFT，我们可以分析信号在不同时间段的频率特性。本文将介绍 STFT 的基本原理、计算过程、输入和输出维度，以及如何使用逆短时傅里叶变换（Inverse Short-Time Fourier Transform, ISTFT）将频域信号重建为时域信号。此外，我们将讨论信号填充（padding）的作用及其在重建过程中的处理，流式处理中的帧长和帧移的设置。

短时傅里叶变换（STFT）

1. 定义

短时傅里叶变换是对信号进行分帧处理后，对每一帧应用傅里叶变换。其基本思想是将信号视为在短时间内近似平稳的，从而可以分析其频谱特性。

2. 计算过程

STFT 的计算过程可以分为以下几个步骤：

信号分帧：
- 将输入信号分成多个小帧（窗口），每一帧的长度通常为 n_fft。
- 设置帧移（hop length），通常为窗口长度的一部分（如 50% 重叠）。
应用窗口函数：
- 对每一帧应用窗口函数（如汉明窗、汉宁窗），以减少边缘效应。
傅里叶变换：
- 对每一帧应用快速傅里叶变换（FFT），将时域信号转换为频域信号。
构建频谱矩阵：
- 将每一帧的 FFT 结果组合成一个频谱矩阵，行表示频率，列表示时间。

3. 输入和输出维度

输入信号 y：
- 类型：一维 NumPy 数组。
- 维度：(n_samples,)，其中 n_samples 是音频信号的样本总数。
输出结果 D：
- 类型：二维复数 NumPy 数组。
- 维度：(n_freq, n_frames)，其中：
  - n_freq = n_fft // 2 + 1，表示频率 bins 的数量。
  - n_frames = 1 + (len(y) - n_fft) // hop_length，表示时间帧的数量。

4. 信号填充的作用

在进行 STFT 计算之前，信号填充（padding）可以起到以下几个作用：

避免边界效应：填充可以确保在信号的边界处进行傅里叶变换时，不会因为窗口的截断而产生不必要的频谱失真。
统一帧的长度：在某些情况下，填充可以使信号的长度达到 n_fft 的整数倍，从而避免在处理时出现不完整的帧。
提高频谱的平滑性：通过填充，信号的频谱在边缘处会更加平滑，减少高频噪声的影响。

5. 流式数据处理中的帧长和帧移

在流式数据处理中，帧长和帧移的设置对于处理效果、延迟和计算效率有重要影响。

5.1. 帧长（Frame Length）

定义：帧长是每一帧中包含的样本数量，通常用 N 表示。
影响因素：
- 频率分辨率：帧长越长，频率分辨率越高。频率分辨率可以通过公式计算：
  
  频率分辨率 = fs / N
  
  其中 fs 是采样率，N 是帧长。较长的帧长能够更准确地分析频谱特征。
- 时域分辨率：帧长越长，时域分辨率越低。较长的帧可能会导致快速变化的信号特征被模糊化。

5.2. 帧移（Hop Length）

定义：帧移是相邻帧之间的样本数，通常用 H 表示。
影响因素：
- 重叠量：帧移与帧长之间的关系直接影响帧之间的重叠量。重叠量可以通过以下公式计算：
  
  重叠量 = N - H
  
  较大的重叠量有助于捕捉信号的快速变化，减少边缘效应。
- 计算效率：较小的帧移会增加计算量，因为每次处理的帧数增加，可能导致更高的计算开销。

6. 常见的设置建议

帧长与帧移的比例：
- 一个常见的做法是设置帧移为帧长的一半（即 H = N/2），这会导致 50% 的重叠。这种设置通常能够较好地平衡时频分辨率和计算效率。
- 其他常见的重叠比例包括 25%（H = 0.75N）和 75%（H = 0.25N），具体选择应根据应用需求。
应用依赖：
- 音乐信号处理：通常使用较长的帧长（如 2048 或 4096 点）和适度的帧移（如 50% 重叠），以便获得高频率分辨率。
- 语音信号处理：通常使用较短的帧长（如 256 或 512 点）和较大的帧移（如 50% 或 75% 重叠），以便更好地捕捉语音的快速变化。

7. 实际应用中的调整

在实际应用中，帧长和帧移的选择可能需要根据具体的信号特性和处理需求进行调整。可以通过实验来确定最佳参数设置，考虑以下因素：

信号的频率特性：频率范围较宽的信号可能需要较长的帧长。
信号的动态变化：快速变化的信号可能需要较短的帧长和较小的帧移，以捕捉瞬时特征。
计算资源：在计算资源有限的情况下，可能需要减少帧长或增加帧移以降低计算负担。

逆短时傅里叶变换（ISTFT）

1. 定义

逆短时傅里叶变换是将频域信号转换回时域信号的过程。它是 STFT 的逆操作，旨在重建原始信号。

2. 计算过程

ISTFT 的计算过程可以分为以下几个步骤：

初始化输出信号：
- 创建一个与输入信号长度相同的零数组，用于存储最终的时域信号。
创建窗口函数：
- 根据给定的窗口参数创建窗口函数。
对每个时间帧进行逆变换：
- 对每一帧的频域数据进行逆傅里叶变换（IFFT），将其转换为时域信号。
重叠相加：
- 将每个帧的结果添加到输出信号的相应位置，处理重叠部分。

3. 输入和输出维度

输入频谱 D：
- 类型：二维复数 NumPy 数组。
- 维度：(n_freq, n_frames)，其中 n_freq 是频率 bins 的数量，n_frames 是时间帧的数量。
输出信号 y_reconstructed：
- 类型：一维 NumPy 数组。
- 维度：(n_samples,)，表示重建后的时域信号的样本数。

4. 信号填充的处理

在进行 ISTFT 时，信号填充（padding）的处理是非常重要的，具体如下：

填充的目的：在进行 STFT 之前，可以对信号进行填充，以确保信号长度达到 n_fft 的整数倍，避免在处理时出现不完整的帧。这有助于减少边缘效应，提高频谱的平滑性。
去除填充：在信号重建的过程中，通常需要去除之前添加的填充，以确保重建后的信号与原始信号的长度一致。

5. 使用示例

以下是一个示例代码，展示了如何使用 librosa.istft 进行逆变换，并处理帧的叠加：

import numpy as np
import librosa
import librosa.display
import matplotlib.pyplot as plt

# 设置参数
sr = 16000  # 采样率
duration = 1.0  # 持续时间
num_samples = int(sr * duration)  # 样本数

# 创建一个随机信号
y = np.random.randn(num_samples)  # 生成均值为0，标准差为1的随机信号

# 计算 STFT
D = librosa.stft(y, n_fft=320, hop_length=160)

# 计算 ISTFT
y_reconstructed = librosa.istft(D, hop_length=160)

# 验证重建信号是否与原信号相似
print("Are the original and reconstructed signals similar?", np.allclose(y, y_reconstructed))

# 可视化
plt.figure(figsize=(10, 4))

# 原始信号的时间轴
t = np.linspace(0, duration, num_samples, endpoint=False)
plt.subplot(2, 1, 1)
plt.plot(t, y, label='Original Signal')
plt.title('Original Random Signal')
plt.xlabel('Time (s)')
plt.ylabel('Amplitude')
plt.legend()

# 重建信号的时间轴
t_reconstructed = np.linspace(0, duration, len(y_reconstructed), endpoint=False)
plt.subplot(2, 1, 2)
plt.plot(t_reconstructed, y_reconstructed, label='Reconstructed Signal', color='orange', alpha=0.7)
plt.title('Reconstructed Signal')
plt.xlabel('Time (s)')
plt.ylabel('Amplitude')
plt.legend()

plt.tight_layout()
plt.show()

在这里插入图片描述
在使用 librosa 进行短时傅里叶变换（STFT）和逆短时傅里叶变换（ISTFT）时，如果选择不同的窗函数，会导致以下几个问题：

1. 幅度恢复问题

窗函数的性质：每种窗函数（如汉明窗、汉宁窗、布莱克曼窗等）都有自己特定的形状和能量特性。当您在 STFT 中使用一种窗函数，而在 ISTFT 中使用另一种窗函数时，重建信号的幅度可能会受到影响。
能量归一化：窗函数的能量会影响信号的幅度。如果在 STFT 中使用窗函数 A，而在 ISTFT 中使用窗函数 B，重建后的信号幅度可能与原始信号不一致。

2. 频谱泄漏

频谱泄漏：不同窗函数对频谱泄漏的抑制效果不同。如果在 STFT 中使用一种窗函数，而在 ISTFT 中使用另一种窗函数，可能会导致重建信号出现意外的频谱泄漏现象，从而影响信号的频率成分。

3. 频率分辨率和时间分辨率

频率分辨率：窗函数的选择也会影响频率分辨率和时间分辨率。例如，较窄的窗函数（如矩形窗）提供更好的时间分辨率，但较差的频率分辨率，而较宽的窗函数（如布莱克曼窗）则提供更好的频率分辨率但较差的时间分辨率。如果在 STFT 和 ISTFT 中使用不同的窗函数，可能会导致重建信号的频率特性与原始信号不匹配。

解决方案

为了避免上述问题，确保在进行 STFT 和 ISTFT 时使用相同的窗函数是非常重要的。这样可以确保信号的幅度、频谱特性和能量一致性，从而获得准确的信号重建。

总结

短时傅里叶变换（STFT）和逆短时傅里叶变换（ISTFT）是信号处理中的重要工具。STFT 允许我们在时间和频率域中分析信号，而 ISTFT 则使我们能够从频域重建时域信号。在实际应用中，STFT 和 ISTFT 常用于音频信号分析、语音识别和音乐信息检索等领域。掌握这两种变换的原理和使用方法，对于深入理解信号处理有着重要的意义。

信号填充在 STFT 中起着重要作用，它有助于避免边界效应、统一帧的长度以及提高频谱的平滑性。在流式数据处理中，合理设置帧长和帧移是关键，可以通过实验和调整找到最佳参数组合，以提高信号处理的效果和效率。