基于神经语音处理的鲸鱼叫声检测
1. 引言
随着人类渔业和航运等海洋活动的增加,海洋哺乳动物的生存正面临着越来越大的威胁。由于动物会发声,且声音在水中传播良好,因此通过被动声学监测它们的活动,可以为了解海洋哺乳动物的分布提供有价值的信息。
被动声学监测方法(PAM)利用水下麦克风(水听器)来监听和记录海洋哺乳动物的信号,以进行检测、分类和定位。与视觉观察相比,PAM 作为一种监测方法表现更优,因为它可以在夜间、恶劣天气或其他视觉观察困难的条件下使用。
在过去十年中,声学数据的收集和存储成本大幅下降,如今一个项目就能收集到数 TB 的数据。然而,随着声学数据量的增加,提取有意义的生态信息变得越来越昂贵。机器学习使得以相对较低的成本在大型数据集中识别信号成为可能,并且比人工分析更加稳定。
目前,最突出的鲸鱼叫声检测和分类方法是将卷积神经网络(CNN)与频谱图结合使用,该方法已成功应用于多个数据集。但这种基于频谱图的系统存在一个缺点,即在广泛的水下声学条件下获取高质量的频谱图具有挑战性,并且当数据集变大时,使用频谱图作为特征训练模型的计算成本很高。
本文探索了一种基于时延神经网络(TDNN)的 x - 向量系统的替代方法,以传统语音特征作为输入,具体实验了梅尔频率倒谱系数(MFCCs)和滤波器组(Fbanks)。选择这种方法有两个原因:一是未来希望利用迁移学习,用国际上可用的数据或模型扩展一些较小的南非鲸鱼叫声数据集,而 x - 向量系统特别适合这种方法;二是旨在开发一个不需要仔细校准频谱图的系统,特别是在后续组合不同数据集时。
2. 相关工作
各种研究使用语音特征或频谱图进行鲸鱼叫声检测,最常用的模型
超级会员免费看
订阅专栏 解锁全文
594

被折叠的 条评论
为什么被折叠?



