【音频特征】opensmile 工具的使用和批处理

openSMILE是一个用于音频特征提取的工具,广泛应用于语音识别和情感计算。它支持多种输入输出格式,包括WAV、CSV、HTK等。通过配置文件,可以提取MFCC、PLP等特征,以及特定情感识别特征集。批处理功能允许高效处理大量音频文件,输出格式可通过参数控制,如CSV、ARFF。了解并定制配置文件是关键,以满足特定任务需求。

1. 前言

openSMILE是一款以命令行形式运行的工具,通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。
官网有linux和windows版本提供下载,windows可以不编译直接用,建议在命令行里指明 openSMILE 绝对路径。

2. openSMILE的输入输出格式

文件输入格式

  • RIFF-WAVE (PCM) (for MP3, MP4, OGG, etc. a converter needs to be used)
  • Comma Separated Value (CSV)
  • HTK parameter files
  • WEKA’s ARFF format.(由htk工具产生)
  • Video streams via openCV.(opencv产生的视频流数据)

文件输出格式

  • RIFF-WAVE (PCM uncompressed audio)
  • Comma Separated Value (CSV)
  • HTK parameter file
  • WEKA ARFF file
  • LibSVM feature file format
  • Binary float matrix format

分类器和其他组件
openSMILE还提供了许多VAD算法,用于判断各时间点有没有说话。

  • Voice Activity Detection based on Fuzzy Logic
  • Voice Activity Detection based on LSTM-RNN with pre-trained models
  • Turn-/Speech-segment detector
  • LibSVM (on-line)
  • LSTM-RNN (Neural Network) classifier which can load RNNLIB and CURRENNT nets
  • GMM (experimental implementation from eNTERFACE’12 project, to be release soon)
  • SVM sink (for loading linear kernel WEKA SMO models)
  • Speech Emotion recognition pre-trained models (openEAR)

3. openSMILE使用流程简介

  1. 先切换到处理文件SMILExtract.exe所在的目录
  2. 通过如下语句提取:
    windows下:SMILExtract_Release -C “配置文件” -I “要处理的音频” -O “要保存特征向量的路径及文件名”
    linux下:SMILExtract -C “配置文件” -I “要处理的音频” -O “要保存特征向量的路径及文件名”

3.1 官方配置文件

官方提供了许多常见特征集的配置文件,如MFCC,PLP,以及各大语音比赛中效果好的特征集。
在这里插入图片描述

3.2 MFCC特征

为了提取MFCC特征(兼容HTK),提供了以下四个文件(它们是以它们所代表的相应的HTK参数类型命名的):
MFCC12_0_D_A.conf此配置从25毫秒的音频帧中提取梅尔频率倒谱系数(以10毫秒的速率采样)(汉明窗口)。 它由26个Mel频带计算13个MFCC(0-12)组,并应用了一个权重参数为22的倒谱提升滤波器。13个一阶和13个二阶系数被附加到MFCC后。
MFCC12_E_D_A.conf此配置跟MFCC12_0_D_A.conf一样,但对数能量是只加在MFCC1-12上。
MFCC12_0_D_A_Z.conf这个配置跟MFCC12_0_D_A.conf配置一样,除了所有特征是参考整个输入序列进行了标准化。
MFCC12_E_D_A_Z.conf这个配置跟MFCC12_E_D_A.conf配置一样,除了所有特征是参考整个输入序列进行了标准化。
帧长为25ms,帧移为10ms,使用的汉明窗,预增强参数为0.97。由26个通过FFT功率谱计算的mel-滤波器组计算MFCC 0/1-12。MEL频谱的频率范围为0-8kHz,同时这些配置文件提供了-I,-O选项。输出文件格式是HTK参数文件格式。如果需要输出其他文件格式,你必须在配置文件中更改‘cHtkSink’组件类型为你想要的类型。命令行示例如下:

SMILExtract -C config/MFCC12_E_D_A.conf -I input.wav -O output.mfcc.htk

3.3 PLP特征

用于提取PLP倒谱系数(PLP-CC)(与HTK兼容)以下四个文件(它们是以它们所代表的相应的HTK参数类型命名的):
PLP_0_D_A.conf该配置从25 ms长音频(以10ms的速率采样)帧提取Mel频率倒谱系数(汉明窗口)。它从26个Mel频带,并使用预测阶数为5计算6个PLP(0-5),并应用了一个权重参数为22的倒谱提升滤波器。6个一阶和6个二阶系数被附加到PLP-CC后。
PLP_E_D_A.conf该配置与PLP_0_D_A.conf相同,但对数能量是只加在PLP1-12上。
PLP_0_D_A_Z.conf此配置与PLP_0_D_A.conf相同,除了所有特征是参考整个输入序列进行了标准化。
PLP_E_D_Z.conf此配置与PLP_E_D_A.conf相同,除了所有特征是参考整个输入序列进行了标准化。
帧长为25ms,帧移为10ms,使用的汉明窗,预增强参数为0.97。由26个通过FFT功率谱计算的听觉mel-滤波器组(压缩系数为0.33)计算PLP 0/1-5。线性预测器的预测阶数为5。MEL频谱的频率范围为0-8kHz,同时这些配置文件提供了-I,-O选项。输出文件格式是HTK参数文件格式。如果需要输出其他文件格式,你必须在配置文件中更改‘cHtkSink’组件类型为你想要的类型。命令行示例如下:

SMILExtract -C config/PLP_
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值