鸟类音频识别与背景建模技术解析
一、哥伦比亚鸟类音频物种识别
1.1 分类方法性能评估
在对哥伦比亚鸟类音频进行物种识别时,采用了支持向量机(SVMs)和深度神经网络(DNNs)两种分类器,并通过交叉验证找到了它们的最佳参数。评估指标为Top - 1和平均平均精度(MAP),以特征数量为横轴,性能指标为纵轴进行性能评估。
结果显示,具有5个隐藏层的DNNs比浅层的SVMs表现出更高的性能,且无论使用Top - 1还是MAP指标,这种趋势都保持一致。随着字典中特征数量的增加,性能有所提升。但SVMs在特征过多时性能开始下降,可能是因为这些特征的线性组合无法为分类决策提供更多信息。而DNNs由于其多层结构可以对输入特征进行非线性组合,从而找到更复杂的模式,因此随着特征的增加,性能稳健提升。具体的测试结果如下表所示:
| 分类器 | 特征数量 | Top - 1 | MAP |
| — | — | — | — |
| 支持向量机 | 2048 | 0.12 | 0.18 |
| 深度神经网络 | 4096 | 0.19 | 0.26 |
1.2 可视化实验
对鸟类音频记录进行可视化实验,采用了主成分分析(PCA)、t - 随机邻域嵌入(t - SNE)、等距映射(Isomap)和局部线性嵌入(LLE)四种方法。将所有鸟类音频记录进行可视化,并突出显示了三种选定物种(绿色:axillaris,蓝色:bicolor,品红色:latrans)。
每种方法对音频记录的投影方式不同。其中,Isomap方法最能保留鸟类物种的相似性;LLE将音频记录投影到5个轴上,但不能保留物种相似性;t -
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



