论文《基于记忆的物体检测》摘要
这篇论文针对的是长期固定位置的摄像头进行物体检测,例如野生动物陷阱相机或交通摄像头。论文提出了一种利用过去图像数据来辅助当前帧物体检测的方法。该方法通过一个注意力机制来访问存储的过去数据,从而实现对当前帧的辅助检测。
论文主要内容:
- 问题描述: 论文针对的是长期固定摄像头,由于其数据采集频率不规律,且相邻帧之间的时间间隔变化很大,传统的基于时间卷积或LSTM的方法并不适用。
- 解决方案: 论文提出了一种新的基于记忆的物体检测方法,该方法利用一个注意力机制来访问存储的过去数据,从而帮助当前帧进行物体检测。
- 模型: 论文基于Faster R-CNN模型,并扩展了其功能,使其能够利用过去数据进行辅助检测。
- 优势: 该方法能够有效地处理长期固定摄像头所面临的数据采集频率不规律和相邻帧之间时间间隔变化大的问题。
论文的贡献:
- 提出了一种新的基于记忆的物体检测方法。
- 证明了该方法在处理长期固定摄像头数据方面的有效性。
总结:
这篇论文提出了一种新的基于记忆的物体检测方法,该方法能够有效地处理长期固定摄像头所面临的数据采集频率不规律和相邻帧之间时间间隔变化大的问题。该方法有望提高长期固定摄像头物体检测的准确率和效率。
物体检测通常不会在真空中进行。静态摄像机,例如野生动物陷阱,在很长的时间范围内收集大量不规则采样的数据,并且经常捕获重复或类似的事件。该模型学习将同一摄像机拍摄的其他帧动态地整合到其物体检测流程中。大纲:0:00 - 简介和概述1:10 - 问题公式2:10 - 静态摄像机数据6:45 - 架构概述10:00 - 短期记忆15:40 - 长期记忆20:10 - 定量结果22:30 - 定性结果30:10 - 假阳性32:50 - 附录和结论论文:https://arxiv.org/abs/1912.03538
摘要:在静态监控摄像机中,有用的上下文信息可以远远超出典型视频理解模型可能看到的几秒钟:主题可能会在几天内表现出类似的行为,而背景物体保持静止。由于功率和存储限制,采样频率很低,通常不快于每秒一帧,有时由于使用运动触发器而变得不规则。为了在这种情况下表现良好,模型必须对不规则采样率具有鲁棒性。在本文中,我们提出了一种利用来自新颖摄像机未标记帧的时间上下文来提高该摄像机性能的方法。具体来说,我们提出了一种基于注意力的方法,它允许我们的模型 Context R-CNN 索引到基于每个摄像机构建的长期记忆库中,并从其他帧中聚合上下文特征,以提高当前帧的物体检测性能。我们将 Context R-CNN 应用于两种设置:(1)使用相机陷阱进行物种检测,以及(2)交通摄像机中的车辆检测,在这两种设置中都表明 Context R-CNN 优于强大的基线。此外,我们表明增加上下文时间范围会导致改进的结果。当应用于 Snapshot Serengeti 数据集中的相机陷阱数据时,Context R-CNN 使用长达一个月的图像的上下文比单帧基线提高了 17.9% 的 mAP,并且比 S3D(基于 3D 卷积的基线)提高了 11.2% 的 mAP。