3、基于机器学习的声音场景与事件分析方法

基于机器学习的声音场景与事件分析方法

1. 分析系统概述

分析系统根据是否输出所分析声音的时间信息可分为两类。输出目标声音类别时间活动信息的系统进行的是检测操作。在这种情况下,根据应用需求可以使用不同的时间分辨率,并且可以一次对一个或多个声音类别进行检测。如果不输出时间信息,系统仅指示待分析的声音类别是否存在于分析对象(如视频记录、音频文件)中。当系统只能为待分析对象输出一种可能的类别时,称为分类;当能同时为待分析对象输出多个类别时,称为标注,在机器学习术语中,标注相当于多标签分类。不同分析系统类型如图 1 所示。

系统类型 输出信息特点
检测 输出目标声音类别时间活动信息
分类 为待分析对象输出一种可能的类别
标注(多标签分类) 为待分析对象同时输出多个类别

典型的基于机器学习的计算声音场景或事件分析系统框图如图 2 所示。该系统以音频信号作为输入,可以是麦克风实时捕获的,也可以是离线的音频记录。这里假设使用的是通过模数转换器获得的离散时间信号。音频处理模块由不同的处理阶段组成,输出声学特征,因为音频的实际分析很少基于音频信号本身,而是基于具有特征的紧凑信号表示。特征提取的目的是获取足够的信息来检测或分类目标声音,使后续的建模阶段在计算上更便宜,并且

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值