
音频处理
文章平均质量分 75
胖胖大海
这个作者很懒,什么都没留下…
展开
-
从零搭建音乐识别系统(三)音乐分类模型
经过上一篇的介绍,我们已经获得了AudioSet开源数据集,并且将数据集分为两类:音乐类和非音乐类。将每段10秒的音频提取得到[64, 1001]大小的特征矩阵。接下来就是使用这些特征矩阵来训练一个二分类模型,用来识别音频片段是否是音乐片段。参考自成熟的图像分类网络模型,我们采用Pytorch框架训练ResNet分类模型,分类模型的训练主要包括以下几个核心步骤:1、训练数据预处理由于我们的每条训练数据是保存在npy文件里面的,所以我们需......原创 2022-01-09 11:55:36 · 2594 阅读 · 4 评论 -
从零搭建音乐识别系统(二)音频特征提取
在前面的总体功能概述中提到了,这个系统会训练两个模型,一个是音乐分类模型,用来判断是否出现音乐片段,一个是embedding特征提取模型,用来提取音频的embedding特征向量。分类模型数据集:在这里,对于分类模型的训练,我们采用开源的AudioSet数据集。AudioSet数据集是一个用于声音分类的数据集,其中包含了各种类别的声音,音乐,唱歌,哼唱,演讲,钢琴等,每个音频片段的长度都是10秒,具体可以去官网看一下介绍。我们要训练的是一个二分类模型,只要能够区分音频......原创 2022-01-08 22:37:19 · 4023 阅读 · 12 评论 -
FAIL util: Unable to load MAD decoder library (libmad)
问题: windows系统上安装sox音频处理软件之后,分析mp3文件报错“FAIL util: Unable to load MAD decoder library (libmad)”。解决方法如下:从这里下载__32-libmad.dll.zip并解压,将解压后的libmad.dll文件放入sox的安装目录,如C:\Program Files (x86)\sox-14-4-2。sox安装:Windows下sox的安装和使用方...原创 2021-10-11 14:23:04 · 712 阅读 · 1 评论