声音场景和事件分析的机器学习方法
1. 分类问题类型
在音频分析中,分类问题的类型是设计模型的重要因素,主要分为单标签分类和多标签分类:
- 单标签分类 :在给定帧中最多只有一个标签存在的任务。场景分类和声音事件分类任务通常属于此类,例如判断一段音频是属于“室内安静环境”还是“室外街道环境”。
- 多标签分类 :对给定帧中同时存在的多个标签进行分类的任务。现实生活环境中的声音事件检测可能属于这一类别,因为在日常生活中多个声音事件可能同时发生,比如街道录音中可能同时存在汽车喇叭声、人们的交谈声等。
当目标输出在[0, 1]范围内时,模型的估计输出 $\hat{y} {c,t} \in [0, 1]$ 有以下两种情况:当第 $c$ 个标签的类别不存在时,$\hat{y} {c,t}$ 接近 0;当第 $c$ 个标签的类别存在时,$\hat{y} {c,t}$ 接近 1。因此,$\hat{y} {t}$ 可以被视为类别存在概率。
2. 学习过程
学习过程是在给定的特征空间中寻找能够分离不同类别示例的最优模型。以下是学习过程的详细介绍:
2.1 决策边界
以一个包含两个特征 ${o_1, o_2}$ 的简单学习任务为例,有两个不同类别的示例,分别用蓝色三角形和橙色圆形标记。划分不同类别示例的曲线称为决策边界,它由模型估计为同样可能属于两个类别之一的数据点组成。在实际情况中,可能会有一些示例位于决策边界的错误一侧,这表明模型并不完美。
声音场景与事件分析的ML方法
超级会员免费看
订阅专栏 解锁全文
1241

被折叠的 条评论
为什么被折叠?



