2、声音场景与事件分析的机器学习方法

声音场景与事件分析的机器学习方法

1. 引言

在与计算声音场景和事件分析相关的每个应用中,进行计算的系统需要解决非常不同类型的任务。比如自动检测婴儿的哭声、用预定义的标签标记视频,或者检测手机是在室内还是室外。尽管这些任务看起来差异很大,但所使用的计算方法通常基于相同的原理,遵循相同的处理架构。

自然环境中的声音具有很大的多样性,语义相似的声音事件通常具有不同的声学特征。因此,手动开发用于检测声音场景或事件存在的计算指标,仅在非常简单的情况下可行,例如仅根据声音事件的响度来检测枪声。然而,在许多实际的计算分析系统中,目标声音的特征更加多样化,系统需要检测多种类型的声音。

不同分析系统的类别数量可能会有很大差异。最简单的检测系统仅使用两类声音:目标声音类和其他所有声音。理论上,类别数量没有上限,但实际上受限于用于开发系统的可用数据、可达到的准确性以及计算和内存要求。当存在多个目标类别时,系统还可以根据其是一次只能检测一个事件,还是能检测多个时间上重叠的事件(自然环境中常见)进行分类。分析大量不同的声音需要从声音信号中计算更多的参数,并使用机器学习等自动方法来区分不同类型的声音。

大多数处理现实声音的计算分析系统基于监督机器学习方法,即使用每个目标声音类型的标记示例来训练系统。监督学习方法要求系统开发者预先定义一组可能的场景(如街道、家庭、办公室)或事件(如汽车经过、脚步声、狗叫声)类别,并且有足够的标记示例来训练系统。虽然无监督学习和半监督学习等其他机器学习技术也适用,但监督学习方法是分析声音场景和事件最常用的方法。

2. 音频分析系统概述

音频分析系统通常包含以下主要处理模块:
- 信号预

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值