1119

本文介绍如何利用GoogleAudioSet数据集与TensorFlow框架进行音频分类任务。详细讲解了数据集的特性,包括其组成、格式及如何提取音频特征。此外,还探讨了YouTube-8M模型的应用,并说明了如何调整模型以适应不同类别的音频分类。

基于tensorflow的音频分类

1.数据集的选择:

  Google AudioSet(被分成了三部分:均衡的训练集、不均衡的训练集以及评估集),它是基于有标签的 YouTube 视频片段,可以以两种格式下载:

  • 每一个视频片段都有 CSV 文件描述,包括 YouTube 视频 ID、起始时间和结束时间、以及一个或多个标签,(什么是CSV格式文件?)

  • 提取出的音频特征以 TensorFlow Record 文件的形式被存。(什么是TensorFlow Record?什么用?)

  • note:这些音频特征与YouTube-8M 模型是兼容的,也提供了 TensorFlow VGGish 模型作为特征提取器!可以进行选择!

2.训练模型:

  note:YouTube8M模型是固定的样本类别数,需要对这个部分进行修改,以将类别数作为参数传入。

    YouTube-8M 能够处理两种类型的数据:总体特征帧特征(Frame-Level )。Google AudioSet 能够将我们之前提到的数据作为特征(feature),同时这种特征是以帧的格式给出的。

    (1)YouTube-8M 模型完整列表(https://github.com/google/youtube-8m#overview-of-models

    (2)note:训练数据是帧格式的,所以必须使用帧级别的模型。

    note:Please also verify that you have Python 2.7+ and Tensorflow 1.0.0 or higher installed.

    note: 使用Audio Features 可以参考ReadMe.

 

    

  

转载于:https://www.cnblogs.com/ChenKe-cheng/p/9985564.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值