智能音频信号分类的特征提取方法
1. 引言
在大数据时代,涉及数据挖掘、数据处理、模式识别、实时处理和分类等的系统面临着巨大挑战,因为原始数据量极为庞大。尽管许多系统集成了多种传感器,如视觉、声音、振动和红外传感器等,但本文聚焦于声音信号。
监控系统十分复杂,通常由智能设备和人类代理组成,旨在弥补人类的感知和理解能力。监控系统并非新鲜事物,但其在现代面临着信息技术爆炸、社交媒体普及和全球化带来的新挑战。监控系统的复杂程度因规模和环境而异,其阶段包括数据采集、预处理、时空归一化、对齐、特征提取或表征、训练、测试以及可能的传感器数据融合。
声音信号在监控环境中具有重要作用。例如,在边境安全中,视觉可能受限,声音传感有助于识别车辆、人类或动物的入侵;在政府建筑安全中,声音传感可辅助视觉和其他传感器,提升态势感知能力。
2. 理论背景
在特征提取操作中,考虑了三种方法:快速傅里叶变换(FFT)、线性预测编码(LPC)和基于统计的表征(SBC)。音频信号需分割成重叠窗口,每个窗口通过汉明窗平滑,然后使用上述三种表征技术之一进行处理。
2.1 FFT/PSD 方法
采用“Welch”方法,利用功率谱密度(PSD)Welch 估计技术对单个信号帧进行分割和处理。算法步骤如下:
1. 根据窗口大小和重叠数将输入信号向量 x 分成 k 个重叠段。若未指定窗口大小,k 为 8;否则,$k=\frac{m - o}{l - o}$,其中 m 是信号向量 x 的长度,o 是重叠样本数,l 是每个段的长度。
2. 将指定(或默认)窗口应用于 x 的每个段。
3. 对加窗数据应用 nfft
超级会员免费看
订阅专栏 解锁全文
2067

被折叠的 条评论
为什么被折叠?



