基于Transformer注意力模型的监控视频异常检测
1. 引言
视频异常检测在监控系统中具有重要应用,但目前部署监控系统虽成本降低,仍需人工干预来检测打架、辱骂、盗窃等异常事件。由于异常情况定义模糊且缺乏标注数据,异常检测颇具挑战。现有的解决方案主要分为无监督和弱监督两类。
无监督异常检测试图学习正常事件的分布,将离群值标记为异常,但无法涵盖所有正常事件分布,在现实场景中容易出现偏差。弱监督方法只需视频级标签,比监督学习更省力,但在从异常视频中识别异常片段时存在困难,因为异常视频中包含大量正常片段,且异常事件与正常事件差异细微。
为解决这些问题,研究提出了多种方法。多实例学习(MIL)将训练集分为正常和异常片段袋,选择每个袋中异常得分最高的片段进行反向传播,但可能将正常片段误判为异常,且无法充分利用异常视频中的多个异常。而受Tian等人启发的鲁棒时间特征幅度(RTFM)学习模型,通过l2范数对特征进行排序,能更准确地选择异常片段,还可利用异常视频中的多个异常,提高训练数据的利用率。
此外,为避免训练过程中对异常和正常实例的错误识别,提取高质量特征至关重要。研究人员受视频分类任务中视频Transformer成功应用的启发,采用名为Videoswin Features的基于Transformer的特征,其性能优于基于CNN的模型。特征提取后,使用基于扩张卷积的注意力层来捕捉时间域中的长短期依赖关系。该解决方案在上海科技大学校园数据集上进行验证,取得了优于现有方法的性能。
2. 相关工作
传统视频异常检测采用无监督学习算法,试图学习正常事件分布并标记异常,但在现实场景中效果不佳。其他方法包括单类分类、基于跟踪的方法、主
基于Transformer的监控视频异常检测方法
超级会员免费看
订阅专栏 解锁全文
2319

被折叠的 条评论
为什么被折叠?



