基于机器学习的声音场景与事件分析方法
1. 分析系统概述
分析系统根据是否输出所分析声音的时间信息可分为两类。输出目标声音类别时间活动信息的系统进行的是检测操作。在这种情况下,根据应用需求可以使用不同的时间分辨率,并且可以一次对一个或多个声音类别进行检测。如果不输出时间信息,系统仅指示待分析的声音类别是否存在于分析对象(如视频记录、音频文件)中。当系统只能为待分析对象输出一种可能的类别时,称为分类;当能同时为待分析对象输出多个类别时,称为标注,在机器学习术语中,标注相当于多标签分类。不同分析系统类型如图 1 所示。
| 系统类型 | 输出信息特点 |
|---|---|
| 检测 | 输出目标声音类别时间活动信息 |
| 分类 | 为待分析对象输出一种可能的类别 |
| 标注(多标签分类) | 为待分析对象同时输出多个类别 |
典型的基于机器学习的计算声音场景或事件分析系统框图如图 2 所示。该系统以音频信号作为输入,可以是麦克风实时捕获的,也可以是离线的音频记录。这里假设使用的是通过模数转换器获得的离散时间信号。音频处理模块由不同的处理阶段组成,输出声学特征,因为音频的实际分析很少基于音频信号本身,而是基于具有特征的紧凑信号表示。特征提取的目的是获取足够的信息来检测或分类目标声音,使后续的建模阶段在计算上更便宜,并且
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



