【学习笔记】Task3 食物声音识别-音频数据特征提取

本文介绍了音频特征提取的重要性,特别是MFCC(梅尔频率倒谱系数)特征提取在食物声音识别中的应用。内容包括过零率、频谱质心、声谱衰减和色度频率的概念,以及MFCC的详细步骤,如预加重、分帧、加窗、傅里叶变换和Mel滤波器组等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考资料

Datawhale Github官方代码
MFCC特征提取
Datawhale直播

特征提取背景

在之前的Task2中,我们初步查看了数据集的信息,并通过音频的声波图和声谱图将声音可视化了。当我们拿到这些音频数据之后,接下来就需要进行特征提取(过滤掉背景噪音等不需要的信息)筛选出我们需要的信息了。

接下来我们将简要介绍以下特征,并详细学习MFCC特征提取知识:

  • 过零率 (Zero Crossing Rate)
  • 频谱质心 (Spectral Centroid)
  • 声谱衰减 (Spectral Roll-off)
  • 梅尔频率倒谱系数 (Mel-frequency cepstral coefficients ,MFCC)
  • 色度频率 (Chroma Frequencies)

1、过零率是一个信号符号变化的比率,即,在每帧中,语音信号从正变为负或从负变为正的次数。 这个特征已在语音识别和音乐信息检索领域得到广泛使用,通常对类似金属、摇滚等高冲击性的声音的具有更高的价值。一般情况下,过零率越大,频率近似越高。
(虽然是率,但是它指的是次数!&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值