声音场景与事件分析的机器学习方法
1. 引言
在与计算声音场景和事件分析相关的每个应用中,进行计算的系统需要解决非常不同类型的任务。比如自动检测婴儿的哭声、用预定义的标签标记视频,或者检测手机是在室内还是室外。尽管这些任务看起来差异很大,但所使用的计算方法通常基于相同的原理,遵循相同的处理架构。
自然环境中的声音具有很大的多样性,语义相似的声音事件通常具有不同的声学特征。因此,手动开发用于检测声音场景或事件存在的计算指标,仅在非常简单的情况下可行,例如仅根据声音事件的响度来检测枪声。然而,在许多实际的计算分析系统中,目标声音的特征更加多样化,系统需要检测多种类型的声音。
不同分析系统的类别数量可能会有很大差异。最简单的检测系统仅使用两类声音:目标声音类和其他所有声音。理论上,类别数量没有上限,但实际上受限于用于开发系统的可用数据、可达到的准确性以及计算和内存要求。当存在多个目标类别时,系统还可以根据其是一次只能检测一个事件,还是能检测多个时间上重叠的事件(自然环境中常见)进行分类。分析大量不同的声音需要从声音信号中计算更多的参数,并使用机器学习等自动方法来区分不同类型的声音。
大多数处理现实声音的计算分析系统基于监督机器学习方法,即使用每个目标声音类型的标记示例来训练系统。监督学习方法要求系统开发者预先定义一组可能的场景(如街道、家庭、办公室)或事件(如汽车经过、脚步声、狗叫声)类别,并且有足够的标记示例来训练系统。虽然无监督学习和半监督学习等其他机器学习技术也适用,但监督学习方法是分析声音场景和事件最常用的方法。
2. 音频分析系统概述
音频分析系统通常包含以下主要处理模块:
- 信号预
超级会员免费看
订阅专栏 解锁全文
2661

被折叠的 条评论
为什么被折叠?



