音频数据集与评估:原理、方法和指标
1. 数据模拟
数据模拟是一种快速生成带有可靠标注的声音场景数据的方法。通过将孤立的声音片段混合,可以创建出具有所需复杂度的重叠目标声音以及可能的环境或噪声背景的复杂音频示例。
1.1 优点
- 在创建混合音频的过程中,能够基于单个声音事件实例的放置生成可靠的参考标注。
- 可以控制不同声音事件和背景的相对电平,从而能够在不同的信噪比下创建相同的声音组合。
1.2 缺点
- 为了获得逼真的声音场景,需要考虑声音共现和重叠的规则,这就需要创建一种类似于日常环境的“语言模型”。
- 使用的源样本集有限,可能无法完全模拟现实世界数据的复杂性。
1.3 声学环境模拟
还可以模拟各种声学环境中的音频捕获,以增加数据的多样性。一种简单的房间模拟方法是收集不同大小和形状房间的房间脉冲响应,在低混响空间中捕获源音频,然后通过将干净的音频信号与可用的房间脉冲响应进行卷积来模拟在不同房间中的音频捕获。另一种模拟房间响应的方法是使用图像法。
2. 数据收集的常见陷阱
2.1 多样性需求
在录制新音频时,为了满足多样性的需求,需要记录同一情况的多个实例,例如每个声学场景类别的不同位置和多种条件(如雨天/晴天/有风、冬季/夏季、拥挤/安静),以及每个声音事件的多个示例(如不同人的脚步声、不同速度、不同表面等)。对于音频场景,还应记录地理位置,以便在实验设置中使用,避免使用来自同一位置的数据进行训练和测试,除非有特定需求(特定位
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



