环境声音分类与检测中的数据集与标注
1. 声音事件标注类型
在现实环境中,多个声音相互重叠是非常常见的现象。当对这些重叠的声音进行标注时,就会产生复音标注,这实际上是环境音频标注中最复杂的一种形式。
2. 获取参考标注的方法
为了进行有监督学习和评估,音频必须有相应的参考标注。这些标注可以通过手动或各种半自动方式生成,标注的质量和详细程度往往取决于所采用的方法。
2.1 手动标注
手动标注由人类标注员将音频内容映射为文本标签。手动标注声音场景音频材料相对较快,但标注声音事件的过程则慢得多,使用弱标签进行标注比使用强标签要快得多。然而,手动标注容易受到主观性的影响,这源于标签用词的选择和时间边界的划定。
2.2 自动标注
自动标注方法可以利用音频的特定内容,例如使用端点检测来查找感兴趣的片段,或使用预训练的分类器为音频片段分配标签。但自动方法容易出现算法错误,因此需要人工验证标注结果,以确保其质量足够高。例如,端点检测已被用于标注 ITC - irst 数据,并随后验证声音事件的边界。对于合成的音频混合,标注可以在生成音频混合的同时自动生成。
2.3 众包标注
众包标注适用于某些类型的数据,可以利用现有的工具,如 Amazon Mechanical Turk。这种方法可以在短时间内获得大量的判断,并通过标注员间的一致性度量来生成高质量的标注。众包标注也适用于验证来自 Freesound 或 YouTube 等来源的弱标签数据,但在分割(无论是否带有标签)方面,众包标注较难实现。
3. 设计手动标注任务
设
超级会员免费看
订阅专栏 解锁全文
5763

被折叠的 条评论
为什么被折叠?



