摘要
相机陷阱是动物生态学中生物多样性监测和保护的重要工具。然而,它们的实际应用受到一些问题的限制,比如对新的和看不见的位置的泛化能力差。图像通常与不同形式的语境相关联,这些语境可能以不同的形式存在。在这项工作中,我们利用与相机陷阱图像相关的结构化上下文来提高相机陷阱中物种分类任务的分布外泛化。例如,一张野生动物的照片可以与它被捕获的时间和地点的细节联系起来,以及关于动物物种的结构化生物学知识。虽然经常被现有研究所忽视,但结合这种背景为更好地理解图像提供了几个潜在的好处,例如解决数据稀缺和增强泛化。然而,如何有效地将这种异构上下文整合到视觉域是一个具有挑战性的问题。为了解决这个问题,我们提出了一个新的框架,将物种分类转换为多模态知识图(KG)中的链接预测。该框架能够无缝集成各种多模态上下文进行视觉识别。我们将该框架应用于iWildCam2020-WILDS和Snapshot山地斑马数据集上的分布外物种分类,并通过最先进的方法获得具有竞争力的性能。此外,我们的框架提高了识别代表性不足物种的样本效率。
1.介绍
人类活动日益危及野生动物物种,导致全球动物种群数量显著下降[2,19,37]。因此,准确识别和跟踪野生动物物种对保护生态生物多样性至关重要。相机陷阱,即在自然栖息地由运动或红外激活的数码相机,已经成为生态学家首选的数据收集工具[23,44,67]。然而&#