利用深度卷积神经网络识别声景录音中的鸟鸣
一、引言
鸟类在生态系统中扮演着重要角色,但人类活动和环境变化使许多鸟类濒临灭绝。因此,监测鸟类物种多样性至关重要。目前主要有两种监测方式:实地观察和声学监测。
与实地观察相比,声学监测能收集大量鸟类数据,在研究扩展性方面具有显著优势。全球约有10000种鸟类,迫切需要根据鸟鸣自动分类鸟类物种。机器学习技术在这方面发挥了重要作用,如支持向量机、决策树、ResNet50等模型,但这些模型在处理有噪声和复杂环境的音频时,准确率会下降。
监测鸟类多样性的两种主要方法:
1. 实地审查 :依赖专家的专业知识,如新西兰使用的五分钟鸟类统计法,但可能会遗漏一些物种,且在偏远地区维持专业人员成本较高。
2. 音频监测 :利用独立录音设备,声学传感器可长时间工作,收集的声音能提供可靠的声景记录。然而,分析大量音频数据对环保主义者来说是一项艰巨任务,因此需要自动化工具。
近年来,字符识别技术被用于自动检测声学记录中的鸟鸣,商业软件如Raven和Song Scope可对鸟鸣进行分段和描述,但全自动分析技术的可靠性和准确性仍有待提高,因此半自动化方法也在被研究。
二、相关工作
基于卷积神经网络(CNN)的模型在鸟鸣识别中应用广泛,通常将鸟鸣的频谱图作为输入,将鸟鸣识别任务视为图像分类问题。因为鸟鸣的特征,如音高和音调,可在频谱图中观察到。
一些研究采用了不同的方法来优化CNN模型:
- 归一化处理 :在整个训练数据集上计算均值和方差进行
超级会员免费看
订阅专栏 解锁全文
596

被折叠的 条评论
为什么被折叠?



