基于频谱图的音频数据增强
1. 音频频谱图简介
在音频处理中,除了使用波形图来可视化声音,音频频谱图也是一种重要的可视化方法。频谱图的输入是一维振幅值数组和采样率,这与波形图的输入相同。音频频谱图有时也被称为声谱图、声像图、声纹图等。
频谱图比波形图能更详细地表示声音,它展示了频率和振幅(响度)随时间的相关性,有助于可视化信号中的频率成分。通过频谱图,我们可以更轻松地识别音乐元素、检测旋律模式、识别基于频率的效果,还能比较不同音量设置的结果。此外,频谱图在识别信号中的非音乐方面,如噪声和其他频率的干扰,也更有帮助。
频谱图的典型应用包括音乐、人类语音和声纳。简单来说,它是频率随时间变化的图谱,其中 y 轴表示频率(单位为 Hz 或 kHz),x 轴表示时间(单位为秒或毫秒),有时图表还会附带一个表示振幅水平的颜色索引。
以下是绘制 D 大调音频文件中控制钢琴音阶频谱图的命令:
# draw Spectrogram
pluto.draw_spectrogram(pluto.audio_control_dmajor)
1.1 频谱图绘制步骤
使用 Matplotlib 库绘制音频频谱图时,主要输入是振幅数组和采样率,该库会完成复杂的计算。其构建音频频谱图的步骤如下:
1. 分割音频流 :将音频流分割成重叠的片段,也称为窗口。
2. 计算 STFT 值 :对每个窗口计算短时傅里叶变换(STFT)值。
3.
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



