Interpretable and Accurate Fine-grained Recognition via Region Grouping
通过区域分组实现可解释且准确的细粒度识别。根据,特征图获得每个语义部分的分配图,再计算出每个语义的特征向量,形成特征矩阵,后续变换和分类。
文章目录
摘要
本文方法核心:在深度神经网络中集成基于区域的部分发现和属性。通过对象部分的分割以及识别它们对分类的贡献来解释结果。为了便于在没有直接监督的情况下学习对象部分,探索了出现对象部分的简单先验。当与基于区域的部分发现和归因相结合时,可产生保持较高准确性的可解释模型。
1 引言
尽管模型的解释可以在多个方面进行,但解释模型的至少一种方法是分割对象部分的有意义区域,并进一步确定其对决策的贡献。如何设计一个可解释的深层模型,能学着发现对象部分并评估其对视觉识别的重要性。
部分发现,即在没有显式监督信息的情况下学习目标部分,本身就很难。来自卷积网络的特征可用于将像素分组为一组视觉上相干的区域,从中可以选择辨别的子集进行识别。 希望仅以对象标签为指导,希望分组有助于找到视觉上截然不同的部分,并且选择过程将确定它们对分类的贡献。
基于区域的部分发现的主要挑战是,没有明确的监督信号来定义部分区域。 必须结合有关对象部分的先验知识以促进学习。 本文的核心创新是探索关于对象部分的简单先验:给定单个图像,部分的出现遵循Beta分布,例如大多数鸟类图像中很可能会出现鸟头。 这种简单的先验知识与基于区域的部分发现相结合,可以识别出有意义的对象部分,且结果可解释的深度模型仍然非常准确。
本文模型学习了对象部分的字典,可以将2D特征图分组为部分片段。这是通过将像素特征与学习字典中的部分表示进行比较完成的。从结果片段中合并基于区域的特征,然后通过注意力机制选择片段的子集进行分类。
在训练过程中,针对每个部分的出现强制执行先前的Beta分布,保证每个批处理中都是二分类的。 这是通过最大程度地减小部分在先发生与经验发生之间的Earth Mover距离来完成的。训练期间,模型仅受带正则化项的对象标签的监督。 在测试过程中,模型输出目标部分的分段,分段部分的重要性和预测的标签。 模型的解释是通过部分分割和其对分类的贡献来进行的。
在三个细粒度数据集上进行实验,获取可解释性和准确性:
- 可解释性,将模型中的输出区域片段与带注释的对象部分进行了比较。在较小数据集上,局部定位误差很小。
- 准确性,用于细粒度分类的标准度量
2 相关研究
深度网络的探索
许多方法专注于开发激活图和/或滤波器权重的可视化工具。其他工作试图在输入图像中识别区分区域。量化基准,将网络单元的激活与人工注释的概念蒙版进行比较。、
深度模型的可解释性
许多研究开发了可通过其设计解释的深层模型。 或者,可以为可移植模型设计新的网络体系结构。
本文模型试图明确编码对象部分的概念,和以往工作的不同:
- 采用感知分组以提供基于图像段的解释
- 学习是通过对象部分出现之前的强先验来进行正则化的
部分发现
bounding box、annotations、弱监督/无监督、注意力。
本文研究试图找到部分并确定它们对细粒度分类的重要性,但考虑了对象部分出现的显式正则化
弱监督语义分割
探索了新颖的正则化方法来学习分割对象部分。考虑了细粒度分类的背景下弱监督的零件分割。还探索了一种分厂不同的部分出现的先验。
基于区域的识别
模型将分割和分类组合成一个深层模型,从而链接到基于区域的识别或更广泛的组成学习的努力。
本文模型对CNN特征进行分组。以前的工作都没有关注分组的质量,因此不能直接用于解释。
3 方法

关键假设是,可通过对一组图像特征 X 1 : N X_{1:N} X1:N中每个部分 d k d_k dk发生强制执行先验分布来规范学习:给定 X 1 : N X_{1:N} X1:N,令 p ( d k ∣ X 1 : N ) p(d_k|X_{1:N}) p(dk∣X1:N)为部分 d k d_k dk在集合 X 1 : N X_{1:N} X1:N中出现的条件概率。假设 p ( d k ∣ X 1 : N ) p(d_k|X_{1:N}) p(dk∣X1:N)遵循一个U形分布,其作用类似于概率二进制开关,可以控制“开”和“关”的概率。(不知道什么意思)

3.1 部分分割和正则化
部分分配
相似度投影单元: ( X , D ) → Q (X,D)\to Q (X,D)→Q

每个通道用来生成分配到某个语义的可能性
发现部分
平滑处理更有效,平滑操作有助于消除特征图上的异常值。
部分检测器定义为 t k = max i j G ∗ Q k t_k=\max_{ij}G∗Q^k tk=maxijG∗Qk,其中G是2D高斯核,∗是卷积运算。 t k t_k tk在 ( 0 , 1 ) (0,1) (0,1)的范围内。 此外,将k个部分检测器的输出串联到所有部分的出现向量 τ = [ t 1 , t 2 , . . . , t K ] T ∈ ( 0 , 1 ) K τ= [t_1,t_2,...,t_K] ^T∈(0,1)^K τ=[t1,t2,...,tK]T∈(0,1)K上。
正则
关键思想是规范每个部分的出现,通过强制部分出现的经验分布和先验U形Beta分布对齐来完成的。
给定 N N N个样本,串联所有向量 τ n τ_n τ

本文介绍了一种通过整合区域部分发现和属性正则化的深度模型,用于实现细粒度识别的可解释性和准确性。模型利用对象部分出现的先验知识,通过部分分割、特征提取和注意力机制,提升模型在CUB等数据集上的表现,同时确保了结果的可解释性。
最低0.47元/天 解锁文章
2118

被折叠的 条评论
为什么被折叠?



