【2203.14506】Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection
关键点:
- DRA(disentangled representations of abnormalities)
- 使用异常样本训练检测模型
- 在目标检测时,将模型已见过的缺陷定义为“灰天鹅”,未见过的缺陷定义为“黑天鹅”。
- 一个新的通过所见异常、伪异常和潜在的残余异常的异常表现(abnormalities illustrated)的disentangled 表征学习,其中后两种异常用于检测未见过的异常。
- 本文认为相比于其它的无监督模型(全部采用无缺陷的样本),现实中提供极少数的异常样本是可能的
- 少数的缺陷样本提供了关于特定应用中异常的有价值知识,而这是那些无监督模型无法利用的
- 现有的利用少数异常样本的模型,存在在已见的缺陷上性能提升大(性能优于无监督模型),而在未见上的性能表现一般(性能差于无监督模型)
- 本文将异常分为三个大类:
- 与已见的异常相似的
- 与数据增强或外部数据相似的伪异常
- 在潜在的基于残差的复合特征空间中的可检测到的未见的异常
- 设计了一个多头网络,不同的头分别用于学习这三种不同的异常。模型给出异常分,目标是给已见和未见赋予高于正常样本的异常分
- 利用top-K的基于多样本学习(MIL)方法来有效的学习已见异常
- 对于非医疗数据集利用CutMix方法从正常图像生成伪异常图像,针对医疗数据集采用(the outlier exposure method)生成伪异常图像
- 未见的异常在高阶复合特征空间很容易被检测
- 利用异常和正常特征之间的特征差异来学习判别复合特征
- 潜在残差异常学习方法:根据样本的特征残差与一些参考图像(正常图像)的特征在一个学习过的特征空间中进行比较学习样本的异常分数。
- 训练阶段:4个头单独训练,因此参数独立优化。采用deviation loss作为损失函数
- 推理阶段:给定一个测试图,求和所有异常学习头的分数,再减去正常头(normality score)的分数,最终得到异常分
- DRA利用ResNet-18作为特征学习骨干网络
【2203.03962】Generative Cooperative Learning for Unsupervised Video Anomaly Detection
关键点:
- 视频无监督缺陷检测的问题:在缺乏ground-truth的情况下,可能会对学习算法的表现产生不利影响
- 本文提出unsupervised Generative Cooperative Learning (GCL),通过构建生成器G与判别器D之间的交叉监督(cross supervision)
- 缺陷被认为是与正常数据的明显偏差
- OCC(one class classification)的问题在于无法捕捉到所有正常的变化
- 相比于静态的图像,视频具有丰富的信息。相比于正常情况,异常发生是很低频的,本文尝试以结构化的方式利用这些先验知识。
- 本文中
- 生成器G不仅重新构造了大量可用的正常表示,而且还通过使用新的消极学习(negative learning NL)方法来扭曲可能的高信心的异常表示。
- G由AE组成,使用AE的直觉是这样的模型可以在一定程度上捕捉到总体主导的数据趋势
- D由全连接层组成,原因是抗噪声能力强
- 判别器D用于估计一个实例是异常的概率。
- 从G创建伪标签用于训练D,接着,用被训练的D创建伪标签用于改进G,如此往复。目的是在训练迭代过程中改进D和G生成的伪标签,从而提高整体的异常检测性能。
- 生成器G不仅重新构造了大量可用的正常表示,而且还通过使用新的消极学习(negative learning NL)方法来扭曲可能的高信心的异常表示。
- 由于异常检测是一个不确定的问题,缺乏约束可能会对训练的收敛产生不利影响,训练时可能会被困在“局部最小值”中。本文通过预训练G和D解决此问题。
- 本文采用D的输出作为异常分。
【2203.00867】Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding
关键点:
- 现有的问题:
- 受限于CNN的有限的接受阈,丧失了对整体结构的考虑,只能处理普通的纹理
- 基于注意力的模型,受限于对于大尺寸图像昂贵的计算代价
- 在掩码区域缺少位置信息
- 本文提出增加一个额外的结构恢复器(structure restorer)来促进图像的增量。该模型在一个固定的低分辨率草图空间中,重新存储了整体图像结构,并具有一种强大的注意力集中的transformer模型。这样的灰度空间很容易被提高到更大的尺度,以传达正确的结构信息。
- 一种掩蔽位置编码策略被用于大型不规则掩模,用以提高性能。
- 本文:着重于增加整体结构信息和位置信息
- 利用基于transformer的模型采用以边和线作为草图张量空间来处理整体结构
- 使用简单的CNN可以实现将归一化的灰度空间无损上采样到更高分辨率
- 新的增量训练策略Zero-initialized Residual Addition (ZeroRA),用以将结构信息融合到预训练的图像修复(inpainting)模型
- 利用基于transformer的模型采用以边和线作为草图张量空间来处理整体结构
- 一种基于ZeroRA的增量transformer结构(ZITS)嵌入框架,采用掩蔽位置编码(MPE)进行增强。
- Masking Positional Encoding (MPE)
- Transformer Structure Restorer (TSR)
- Fourier CNN Texture Restoration (FTR)
- Structure Feature Encoder (SFE)
- 损失函数
- L1 loss
- adversarial loss
- feature match loss
- high receptive field (HRF) perceptual loss
【2111.09099】Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection
关键点:
- 本文提出将基于重建的功能集成到一个新的自监督预测架构的构建块中
- self-supervised predictive convolutional attentive block (SSPCAB)
- 块从一个带有放大滤波器的卷积层开始,接收区域的中心被掩盖。生成的激活映射通过一个通道注意力模块传递。
- 块配备了一个损失,使相对于接收域的掩码区域的重构损失最小化。
- 将重建任务嵌入核心架构层面有两个重要的优势:
- 允许在任何层遮盖信息(而不仅仅在输入时)
- 可以被集成到广泛使用的各种神经网络,非常通用
- Dilation rate:根据特定应用的需要,控制上下文级别(从本地到全局)的一种方式
- CNN的问题:虽然CNN的特征层次结构非常强大,但CNN缺乏理解这些局部特征的全局排列的能力
- 当SSPCAB集成到更靠近输出的地方时,改进似乎更大。集成更多块有时会有所帮助。
- 增大masked kernel M的尺寸没有带来显著的差异
【2111.09886】SimMIM: A Simple Framework for Masked Image Modeling
关键点:
- 对表示学习性能具有较大影响的做法:
- 对具有较大掩蔽块大小的输入图像进行随机掩蔽(如 32)生成强前文本任务
- 预测的原始像素直接回归的RGB值表现并不比复杂设计的patch分类方法差
- 预测头可以像线性层一样轻,但性能并不比较重的预测头差
- 方法
- 掩码策略
- Patch-aligned random masking
- 对于Swin Transformer 对于不同的阶段采用不同size(4×4~32×32)的patch
- 对于ViT,patch默认采用32x32的size
- 编码器结构
- vanilla ViT
- Swin Transformer
- 预测头
- 证明采用及其轻量的预测头(如线性层)效果很好
- 预测目标
- 将每个特征向量投射回原始尺寸
- 默认采用L1-loss
- 掩码策略
- 实验
- 采用Swin-B作为默认的骨干网络,图像为192x192,窗口大小为6,ImageNet-1K作为预训练和微调的数据集
- AdamW优化器
- 简单的数据增强
- 随机调整大小进行裁剪,比例范围[0.67,1],宽高比范围为[3/4,3/4]
- 随机翻转和颜色归一化
- 随机掩膜策略、patch-size:32x32、mask_ratio:0.6
- 掩膜策略:大的patch-size(32)在较为宽泛的掩膜比例范围内性能稳定,认为是中心像素距离可见像素距离很远,逼迫网络学习图像长范围的联系;但当增大至64时性能下降,认为可能时距离过长;AvgDist指标能很好的体现
- 通用的厚的预测头会产生稍低的损失,但在下游任务上的表现会更差,表明重绘的能力更强,不代表在下游任务上更好的性能,原因可能是其强大的表示能力用于下游任务可能是多余的。
- 在被遮蔽的区域上计算掩膜损失性能更好
过长;AvgDist指标能很好的体现 - 通用的厚的预测头会产生稍低的损失,但在下游任务上的表现会更差,表明重绘的能力更强,不代表在下游任务上更好的性能,原因可能是其强大的表示能力用于下游任务可能是多余的。
- 在被遮蔽的区域上计算掩膜损失性能更好
- 掩膜图像建模的目标不需要对齐为同一分类