视频分类通常是一个多模态任务。
可以用RGB图片, optical flow光流图片以及audio音频来进行分类。
这篇博客主要讲一讲用音频来做视频分类的过程。
主要思路
目前利用音频的主要方法是将音频转换为对应谱图,然后让卷积网络像看图片一样去“看”音频信号,以此学会音频信号的特征来进行分类。
几种谱图
要将音频信号转为图片形式,转换的代码网上有很多,但是要考虑的问题是转换为哪种谱图。
声谱图(Spectrogram):横坐标是时间,纵坐标是频率值(见下图的上半部分),同一时间的纵线上存在着数个波,重合而成最终的波。颜色越亮则表示波的振幅越大。
频谱图(Spectrum):某个时间点上(上图中的黄线)的频率分布。横坐标为频率,纵坐标为振幅(见下图的下半部分)。频谱图更有利于直观的观察泛音的成分和强弱。
在视频分类中,视频是时序信号,需要把时间因素考虑进去,所以采用声谱图。
具体代码,直接借用的github上的项目。
另外,可以使用FFmpeg来从视频中提取音频。
archer@Saber:~$ ffmpeg -i apple.mp4 -f mp3 -vn apple.mp3
参数解释:
-i 表示input,即输入文件
-f 表示format,即输出格式
-vn表示vedio not,即输出不包含视频
具体可参考