基于最小 - 最大排序损失的多级 3DCNN 视频异常检测方法
在视频异常检测领域,学习机制的选择至关重要。以往基于无监督学习的方法,仅依据正常样本进行优化,由于难以定义所有类型的正常样本,在现实场景中会产生较高的误报率。为解决这一问题,近期研究将视频异常检测视为二分类问题,考虑正常和异常样本。但要实现强监督学习,需要大量时间标注数据,获取长未修剪视频的密集时间标注既费力又耗时。因此,有学者提出了基于弱监督的多实例学习(MIL)框架。
主要贡献
本文提出的方法有三个主要贡献:
- 提出 3DCNN 中的多级特征组合策略,旨在缓解异常检测任务中的视觉挑战,如部分遮挡、光照变化等。
- 提出最小 - 最大排序损失,既能最大化异常和正常实例之间的分离,又能最小化正常实例之间的分离。
- 在大规模广泛使用的 UCF - Crime 数据集上进行了广泛的实验评估,展示了该方法相较于近期方案的有效性。
方法概述
该方案由四个不同阶段组成,按顺序执行以检测未修剪监控视频中的异常。以下是各阶段的详细介绍:
1. 视频分段(阶段 A) :将每个未修剪视频 V 划分为固定数量(设为 T)的时间不相交片段 {TS1, TS2, …, TST},以保持不同长度视频的同质性。由于视频长度可变,每个时间片段 TSi 的长度可能在不同视频序列中有所不同。
2. 多级 3DCNN 特征提取(阶段 B) :
- 采用基于预训练在 Sports1M 数据集上的顺序 3D ConvNet(C3D)架构的多级 3DCNN 网络提取时空特征。
- C3D
超级会员免费看
订阅专栏 解锁全文
2437

被折叠的 条评论
为什么被折叠?



