19、环境声音分类与检测中的数据集与标注

元编程奶

于 2025-09-02 09:48:33 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：听见世界的算法文章标签：环境声音分类声音事件检测数据集创建

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/b9c0d/article/details/152355230

听见世界的算法专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

环境声音分类与检测中的数据集与标注

1. 声音事件标注类型

在现实环境中，多个声音相互重叠是非常常见的现象。当对这些重叠的声音进行标注时，就会产生复音标注，这实际上是环境音频标注中最复杂的一种形式。

2. 获取参考标注的方法

为了进行有监督学习和评估，音频必须有相应的参考标注。这些标注可以通过手动或各种半自动方式生成，标注的质量和详细程度往往取决于所采用的方法。

2.1 手动标注

手动标注由人类标注员将音频内容映射为文本标签。手动标注声音场景音频材料相对较快，但标注声音事件的过程则慢得多，使用弱标签进行标注比使用强标签要快得多。然而，手动标注容易受到主观性的影响，这源于标签用词的选择和时间边界的划定。

2.2 自动标注

自动标注方法可以利用音频的特定内容，例如使用端点检测来查找感兴趣的片段，或使用预训练的分类器为音频片段分配标签。但自动方法容易出现算法错误，因此需要人工验证标注结果，以确保其质量足够高。例如，端点检测已被用于标注 ITC - irst 数据，并随后验证声音事件的边界。对于合成的音频混合，标注可以在生成音频混合的同时自动生成。

2.3 众包标注

众包标注适用于某些类型的数据，可以利用现有的工具，如 Amazon Mechanical Turk。这种方法可以在短时间内获得大量的判断，并通过标注员间的一致性度量来生成高质量的标注。众包标注也适用于验证来自 Freesound 或 YouTube 等来源的弱标签数据，但在分割（无论是否带有标签）方面，众包标注较难实现。

3. 设计手动标注任务

设

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。