融合自注意力和自编码器的视频异常检测

文章提出了一种结合Transformer和U-Net的视频异常检测算法,针对近景康复动作,利用自注意力机制学习时空信息,并构建室内近景动作数据集。通过Transformer强化特征提取,引入动态图约束增强对运动轨迹的关注,改善了对空间异常定位的准确性。此外,它还解决了传统卷积自编码器在复杂场景异常模式处理中的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

①基于Transformer和U-Net的视频异常检测方法,针对近景康复动作的异常反馈需求,本文基于周期性动作收集了一个室内近景数据集、本文提出了基于Transformer和U-Net混合网络的视频异常检测算法,将基于自注意力机制的Transformer嵌入U-Net网络学习正常事件的局部和全局时空信息,捕捉更丰富的特征信息。

自注意力机制通过计算每一个位置与其他位置之间的相关性,得出每一个位置相对于所有位置的权重,这个权重用来加权求和。得到的加权和就是该位置的特征表示

U-Net网络是一种常用于图像分割的网络模型,其具有编码器和解码器两部分,分别用于提取特征和还原分割结果。

Transformer是一种机器学习模型架构,在自然语言处理领域广泛使用,它是通过自注意力机制来处理序列数据的。

③本文在特征层面通过Transformer进行运动模式挖掘,提升了异常检测的性能,并进行了可视化分析+收集了针对异常分析的室内动作数据集+(针对周期性的近景手部动作)除了传统的重建损失外,本文进一步引入动态图约束引导网络关注运动轨迹区域。+Transformer 模块以及动态图约束

卷积自编码器网络的特征提取能力有限,难以处理复杂场景的各种异常模式-------本文将预测网络和具有强特征表达能力的 Transformer 网络结合,通过学习有视频帧的正常模式来预测下一帧,并根据预测帧 和真实帧的差异来判断异常。

⑤强度指的是图像像素的亮度或颜色值,梯度是指图像中像素强度的变化率。

⑥问题:针对视频序列中每帧图像上的空间异常关注相对薄弱,如异常发生的位置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值