论文笔记:Residual spatiotemporal autoencoder for unsupervised video anomaly detection

本文提出了一种残差时空自编码器(R-STAE),旨在解决监控视频中异常行为检测问题。通过无监督学习的方式,该模型能有效提取正常活动的时空特征并以较低的误差重构正常帧,而异常帧则表现为较高的重构误差。实验结果表明,残差块的引入不仅加速了模型的收敛速度,还显著提高了异常检测的准确性。

摘要

使用一种正态建模方法来解决数据集中异常行为比较少的问题,其中异常被检测为偏离正常模式,基于这个问题提出了一种残差时空自编码器,用来检测视频中的异常检测,利用重建损失检测不规则帧,其中正常帧以较低的重建成本被很好地重建,反之则被识别为异常帧,通过与现有方法的比较,证明了剩余块(residual blocks)的有效性是增量的,比深入额外的层,以训练一个具有良好泛化跨数据集的时空自动编码器。

一、 介绍

为了获得更准确的异常视觉模式检测,我们开发了一个残差时空自编码器
(residual spatiotemporal autoencoder:R-STAE)
,将正常活动的视频片段作为训练数据,提出的r - state对正常模式的时空表示进行无监督学习,并以低误差重构它们。总之,建议的R-STAE使用剩余块来缓解梯度消失问题。r - state以端到端方式实现。

二、剩余时空自动编码器

作为一种数据驱动的方法,深度模型有助于学习更一般化的模式,这些模式涵盖了各种正常活动中普遍存在的类内变化,最近的一种方法中,他们使用了双流残差网络来进行动作识别。与此相反,我们建议使用单个流剩余时空自动编码器(R-STAE)架构来检测监控视频中的异常事件,如下图所示:
在这里插入图片描述

三、基于剩余时空自编码器(r - state)的正态性建模

**目的:**提取能够区分输入视频片段中正常和异常事件的时空表征
**方法:**使用残馀时空自动编码器(R-STAE),它包括3D卷积、反卷积和Conv.LSTM层,以学习模式的正常活动从监控视频。深度学习方法的最新进展使自动编码器能够有效地编码任何给定的数据分布,同时最小化信息丢失。
网络架构剩余时空自编码器由8层组成,其中编码器和解码器各4层。编码器部分由三个3D卷积层组成,分别为256、128、64个单元。卷积层用于从给定的输入视频片段中提取空间信息。
**激活函数:**tanh,因为RELU函数没有上界
Batch normalization:作为一种提高r - state训练效率的正规化技术
Conv.LSTM layer:编码器和解码器部分,所有的输入都是三维的张量,Conv.LSTM layer的公式如下:
在这里插入图片描述
解码器部分由反卷积层组成,也被称为用于重建的卷积转置层。在允许随机初始化内核值时,超参数(如内核大小、内核数量和步数)是预先根据经验确定的.(ResNet),以克服在深度网络中普遍存在的梯度消失问题。在我们的架构中使用的剩余块如图1所示。残差网络中的基本残差块除了现有的卷积

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值