音频频谱图的数据增强与表格数据增强
1. 音频频谱图数据增强
在音频处理中,频谱图是一种强大的工具,可用于可视化音频的频率内容。音频频谱图、Mel频谱图和Chroma STFT是常见的音频可视化方式。
1.1 频谱图生成与保存
当生成新的图像或图表时,会自动将图像文件写入或导出到 ~/Data-Augmentation-with-Python/pluto_img 目录。例如,之前章节中的增强图像、波形图、音频频谱图、Mel频谱图和Chroma STFT图表都会自动保存。辅助函数 _drop_image() 会以 pluto[id].jpg 的格式保存文件,其中 id 是 self.fname_id 变量的自增整数。
1.2 频谱图增强技术
频谱图增强可以复用之前章节的大部分包装函数。经过研究发现,之前章节的音频增强技术同样适用于音频频谱图、Mel频谱图和Chroma STFT,包括以下技术:
- 时间拉伸(Time-stretching)
- 时间移位(Time-shifting)
- 音高缩放(Pitch-scaling)
- 噪声注入(Noise injection)
- 极性反转(Polarity inversion)
- 低通滤波器(Low-pass filter)
- 高通滤波器(High-pass filter)
- 带通滤波器(Ban-pass filter)
- 低架滤波器(Low
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



