目录
1. 前言
openSMILE是一款以命令行形式运行的工具,通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。
官网有linux和windows版本提供下载,windows可以不编译直接用,建议在命令行里指明 openSMILE 绝对路径。
2. openSMILE的输入输出格式
文件输入格式
- RIFF-WAVE (PCM) (for MP3, MP4, OGG, etc. a converter needs to be used)
- Comma Separated Value (CSV)
- HTK parameter files
- WEKA’s ARFF format.(由htk工具产生)
- Video streams via openCV.(opencv产生的视频流数据)
文件输出格式
- RIFF-WAVE (PCM uncompressed audio)
- Comma Separated Value (CSV)
- HTK parameter file
- WEKA ARFF file
- LibSVM feature file format
- Binary float matrix format
分类器和其他组件
openSMILE还提供了许多VAD算法,用于判断各时间点有没有说话。
- Voice Activity Detection based on Fuzzy Logic
- Voice Activity Detection based on LSTM-RNN with pre-trained models
- Turn-/Speech-segment detector
- LibSVM (on-line)
- LSTM-RNN (Neural Network) classifier which can load RNNLIB and CURRENNT nets
- GMM (experimental implementation from eNTERFACE’12 project, to be release soon)
- SVM sink (for loading linear kernel WEKA SMO models)
- Speech Emotion recognition pre-trained models (openEAR)
3. openSMILE使用流程简介
- 先切换到处理文件SMILExtract.exe所在的目录
- 通过如下语句提取:
windows下:SMILExtract_Release -C “配置文件” -I “要处理的音频” -O “要保存特征向量的路径及文件名”
linux下:SMILExtract -C “配置文件” -I “要处理的音频” -O “要保存特征向量的路径及文件名”
3.1 官方配置文件
官方提供了许多常见特征集的配置文件,如MFCC,PLP,以及各大语音比赛中效果好的特征集。

3.2 MFCC特征
为了提取MFCC特征(兼容HTK),提供了以下四个文件(它们是以它们所代表的相应的HTK参数类型命名的):
MFCC12_0_D_A.conf此配置从25毫秒的音频帧中提取梅尔频率倒谱系数(以10毫秒的速率采样)(汉明窗口)。 它由26个Mel频带计算13个MFCC(0-12)组,并应用了一个权重参数为22的倒谱提升滤波器。13个一阶和13个二阶系数被附加到MFCC后。
MFCC12_E_D_A.conf此配置跟MFCC12_0_D_A.conf一样,但对数能量是只加在MFCC1-12上。
MFCC12_0_D_A_Z.conf这个配置跟MFCC12_0_D_A.conf配置一样,除了所有特征是参考整个输入序列进行了标准化。
MFCC12_E_D_A_Z.conf这个配置跟MFCC12_E_D_A.conf配置一样,除了所有特征是参考整个输入序列进行了标准化。
帧长为25ms,帧移为10ms,使用的汉明窗,预增强参数为0.97。由26个通过FFT功率谱计算的mel-滤波器组计算MFCC 0/1-12。MEL频谱的频率范围为0-8kHz,同时这些配置文件提供了-I,-O选项。输出文件格式是HTK参数文件格式。如果需要输出其他文件格式,你必须在配置文件中更改‘cHtkSink’组件类型为你想要的类型。命令行示例如下:
SMILExtract -C config/MFCC12_E_D_A.conf -I input.wav -O output.mfcc.htk
3.3 PLP特征
用于提取PLP倒谱系数(PLP-CC)(与HTK兼容)以下四个文件(它们是以它们所代表的相应的HTK参数类型命名的):
PLP_0_D_A.conf该配置从25 ms长音频(以10ms的速率采样)帧提取Mel频率倒谱系数(汉明窗口)。它从26个Mel频带,并使用预测阶数为5计算6个PLP(0-5),并应用了一个权重参数为22的倒谱提升滤波器。6个一阶和6个二阶系数被附加到PLP-CC后。
PLP_E_D_A.conf该配置与PLP_0_D_A.conf相同,但对数能量是只加在PLP1-12上。
PLP_0_D_A_Z.conf此配置与PLP_0_D_A.conf相同,除了所有特征是参考整个输入序列进行了标准化。
PLP_E_D_Z.conf此配置与PLP_E_D_A.conf相同,除了所有特征是参考整个输入序列进行了标准化。
帧长为25ms,帧移为10ms,使用的汉明窗,预增强参数为0.97。由26个通过FFT功率谱计算的听觉mel-滤波器组(压缩系数为0.33)计算PLP 0/1-5。线性预测器的预测阶数为5。MEL频谱的频率范围为0-8kHz,同时这些配置文件提供了-I,-O选项。输出文件格式是HTK参数文件格式。如果需要输出其他文件格式,你必须在配置文件中更改‘cHtkSink’组件类型为你想要的类型。命令行示例如下:
SMILExtract -C config/PLP_

openSMILE是一个用于音频特征提取的工具,广泛应用于语音识别和情感计算。它支持多种输入输出格式,包括WAV、CSV、HTK等。通过配置文件,可以提取MFCC、PLP等特征,以及特定情感识别特征集。批处理功能允许高效处理大量音频文件,输出格式可通过参数控制,如CSV、ARFF。了解并定制配置文件是关键,以满足特定任务需求。
最低0.47元/天 解锁文章
2883

被折叠的 条评论
为什么被折叠?



