3、基于机器学习的声音场景与事件分析方法-优快云博客

本文链接：https://blog.youkuaiyun.com/b9c0d/article/details/152355160

基于机器学习的声音场景与事件分析方法

1. 分析系统概述

分析系统根据是否输出所分析声音的时间信息可分为两类。输出目标声音类别时间活动信息的系统进行的是检测操作。在这种情况下，根据应用需求可以使用不同的时间分辨率，并且可以一次对一个或多个声音类别进行检测。如果不输出时间信息，系统仅指示待分析的声音类别是否存在于分析对象（如视频记录、音频文件）中。当系统只能为待分析对象输出一种可能的类别时，称为分类；当能同时为待分析对象输出多个类别时，称为标注，在机器学习术语中，标注相当于多标签分类。不同分析系统类型如图 1 所示。

系统类型	输出信息特点
检测	输出目标声音类别时间活动信息
分类	为待分析对象输出一种可能的类别
标注（多标签分类）	为待分析对象同时输出多个类别

典型的基于机器学习的计算声音场景或事件分析系统框图如图 2 所示。该系统以音频信号作为输入，可以是麦克风实时捕获的，也可以是离线的音频记录。这里假设使用的是通过模数转换器获得的离散时间信号。音频处理模块由不同的处理阶段组成，输出声学特征，因为音频的实际分析很少基于音频信号本身，而是基于具有特征的紧凑信号表示。特征提取的目的是获取足够的信息来检测或分类目标声音，使后续的建模阶段在计算上更便宜，并且