音频处理库大PK：四种主流库在计算mel频谱时性能如何？

原创

已于 2023-04-25 15:01:28 修改 · 935 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#音视频 #python #人工智能

于 2023-04-25 14:39:16 首次发布

介绍

音频信号处理在各种应用中都发挥着重要的作用，如语音识别、音乐信息检索、语音合成等。其中，Mel频谱是一种常用的频域特征表示方法，用于描述人类听觉系统对频率的敏感程度。

在深度学习音频领域，mel频谱是最常用的音频特征。在本文中，我们将对四个常用的音频处理库——audioflux、torchaudio、librosa和essentia——进行性能测试，以评估它们在计算Mel频谱时的效率。

Library	Language	Version	About
audioFlux	C/Python	0.1.5	A library for audio and music analysis, feature extraction
torchaudio	Python	0.11.0	Data manipulation and transformation for audio signal processing, powered by PyTorch
librosa	Python	0.10.0	C++ library for audio and music analysis, description and synthesis, including Python bindings
essentia	C++/Python	2.0.1	Python library for audio and music analysis

audioFlux：基于C开发和python包装，底层针对不同平台有不同的桥接处理，支持OpenBLAS，MKL等
TorchAudio: 基于pytorch开发，pytorch基于C++开发和python包装，底层使用MKL，pytorch针对CPU是高度优化的（本篇评测不涉及到GPU版pytorch）；
librosa: 纯python开发，主要基于numpy和scipy，numpy底层使用OpenBLAS；
Essentia: 基于C++开发和python包装，底层使用Eigen，FFTW；

针对音频领域最常见的mel特征，涉及到性能主要卡点有FFT计算，矩阵计算，多线程并行处理这三部分，其它次要卡点有算法业务实现，python包装等。

针对FFT计算，librosa使用scipy的fftpack实现FFT计算加速，比FFTW3，MKL，Accelerate要慢一些；
针对矩阵计算，MKL比OpenBLAS要快些，OpenBLAS比其Eigen快一些；
针对多线程并行处理，具体各个项目内部是否有支持。

测试脚本

测试多个库，使用以下方式：

$ python run_benchmark.py -p audioflux,torchaudio,librosa -r

最低0.47元/天解锁文章