复杂声音场景分析方法
1. 引言
声音场景分析领域致力于开发计算方法,用于分析来自各种环境的音频记录或音频流。常见任务包括声音场景识别(确定音频记录的环境或上下文)和声音事件检测(识别记录中的声源以及声音产生的开始和结束时间)。
在现实环境中,声音场景本质上是复杂的。可能存在多个重叠的声音,即复音现象,这些声音可能来自相同或不同的声音类别。音频还可能包含环境或背景声音,野外音频内容会受天气条件影响,如风和雨。此外,便携式设备(如手机、机器人耳朵等)的音频记录会增加设备“佩戴者”产生的噪音。另外,极其罕见的声音事件(“黑天鹅事件”)也增加了复杂性,在安全/监控领域有应用。
本文将介绍多源环境中声音场景建模和分析的先进方法及未来方向,涵盖城市和自然声音以及专业应用(如办公室声音检测),并从语音处理和音乐信号处理等相关领域获取灵感。
2. 声音场景识别
声音场景识别(也称为声学场景分类或音频上下文识别)的总体目标是通过为音频流选择一个或多个语义标签来描述其声学环境。
2.1 方法
文献中场景识别主要有两种策略:
- 整体特征法 :将音频记录视为一个整体,使用各种类型的特征来描述它。
- 中间表示法 :推导声音事件随时间的中间表示,并将特定声音事件或原子的发生与特定声学环境联系起来。
特征基方法可分为手工特征和特征学习两类:
| 手工特征 | 参考 | 学习特征 | 参考 |
| — | — | — | — |
| MFCCs | [2, 37] | NMF
超级会员免费看
订阅专栏 解锁全文
4912

被折叠的 条评论
为什么被折叠?



