论文阅读:Interpretable and Accurate Fine-grained Recognition via Region Grouping

本文介绍了一种通过整合区域部分发现和属性正则化的深度模型,用于实现细粒度识别的可解释性和准确性。模型利用对象部分出现的先验知识,通过部分分割、特征提取和注意力机制,提升模型在CUB等数据集上的表现,同时确保了结果的可解释性。

Interpretable and Accurate Fine-grained Recognition via Region Grouping

通过区域分组实现可解释且准确的细粒度识别。根据,特征图获得每个语义部分的分配图,再计算出每个语义的特征向量,形成特征矩阵,后续变换和分类。

摘要

本文方法核心:在深度神经网络中集成基于区域的部分发现和属性。通过对象部分的分割以及识别它们对分类的贡献来解释结果。为了便于在没有直接监督的情况下学习对象部分,探索了出现对象部分的简单先验当与基于区域的部分发现和归因相结合时,可产生保持较高准确性的可解释模型。

1 引言

尽管模型的解释可以在多个方面进行,但解释模型的至少一种方法是分割对象部分的有意义区域,并进一步确定其对决策的贡献。如何设计一个可解释的深层模型,能学着发现对象部分并评估其对视觉识别的重要性。

部分发现,即在没有显式监督信息的情况下学习目标部分,本身就很难。来自卷积网络的特征可用于将像素分组为一组视觉上相干的区域,从中可以选择辨别的子集进行识别。 希望仅以对象标签为指导,希望分组有助于找到视觉上截然不同的部分,并且选择过程将确定它们对分类的贡献。

基于区域的部分发现的主要挑战是,没有明确的监督信号来定义部分区域。 必须结合有关对象部分的先验知识以促进学习。 本文的核心创新是探索关于对象部分的简单先验:给定单个图像,部分的出现遵循Beta分布,例如大多数鸟类图像中很可能会出现鸟头。 这种简单的先验知识与基于区域的部分发现相结合,可以识别出有意义的对象部分,且结果可解释的深度模型仍然非常准确。

本文模型学习了对象部分的字典,可以将2D特征图分组为部分片段。这是通过将像素特征与学习字典中的部分表示进行比较完成的。从结果片段中合并基于区域的特征,然后通过注意力机制选择片段的子集进行分类。

在训练过程中,针对每个部分的出现强制执行先前的Beta分布,保证每个批处理中都是二分类的。 这是通过最大程度地减小部分在先发生与经验发生之间的Earth Mover距离来完成的。训练期间,模型仅受带正则化项的对象标签的监督。 在测试过程中,模型输出目标部分的分段,分段部分的重要性和预测的标签。 模型的解释是通过部分分割和其对分类的贡献来进行的。

在三个细粒度数据集上进行实验,获取可解释性和准确性:

  1. 可解释性,将模型中的输出区域片段与带注释的对象部分进行了比较。在较小数据集上,局部定位误差很小。
  2. 准确性,用于细粒度分类的标准度量

2 相关研究

深度网络的探索

许多方法专注于开发激活图和/或滤波器权重的可视化工具。其他工作试图在输入图像中识别区分区域。量化基准,将网络单元的激活与人工注释的概念蒙版进行比较。、

深度模型的可解释性

许多研究开发了可通过其设计解释的深层模型。 或者,可以为可移植模型设计新的网络体系结构。

本文模型试图明确编码对象部分的概念,和以往工作的不同:

  1. 采用感知分组以提供基于图像段的解释
  2. 学习是通过对象部分出现之前的强先验来进行正则化的

部分发现

bounding box、annotations、弱监督/无监督、注意力。

本文研究试图找到部分并确定它们对细粒度分类的重要性,但考虑了对象部分出现的显式正则化

弱监督语义分割

探索了新颖的正则化方法来学习分割对象部分。考虑了细粒度分类的背景下弱监督的零件分割。还探索了一种分厂不同的部分出现的先验。

基于区域的识别

模型将分割和分类组合成一个深层模型,从而链接到基于区域的识别或更广泛的组成学习的努力。

本文模型对CNN特征进行分组。以前的工作都没有关注分组的质量,因此不能直接用于解释。

3 方法

image-20210430200301190

关键假设是,可通过对一组图像特征 X 1 : N X_{1:N} X1:N中每个部分 d k d_k dk发生强制执行先验分布来规范学习:给定 X 1 : N X_{1:N} X1:N,令 p ( d k ∣ X 1 : N ) p(d_k|X_{1:N}) p(dkX1:N)为部分 d k d_k dk在集合 X 1 : N X_{1:N} X1:N中出现的条件概率。假设 p ( d k ∣ X 1 : N ) p(d_k|X_{1:N}) p(dkX1:N)遵循一个U形分布,其作用类似于概率二进制开关,可以控制“开”和“关”的概率。(不知道什么意思)

image-20210430215842371

3.1 部分分割和正则化

部分分配

相似度投影单元: ( X , D ) → Q (X,D)\to Q (X,D)Q

image-20210430205324820

每个通道用来生成分配到某个语义的可能性

发现部分

平滑处理更有效,平滑操作有助于消除特征图上的异常值。

部分检测器定义为 t k = max ⁡ i j G ∗ Q k t_k=\max_{ij}G∗Q^k tk=maxijGQk,其中G是2D高斯核,∗是卷积运算。 t k t_k tk ( 0 , 1 ) (0,1) (0,1)的范围内。 此外,将k个部分检测器的输出串联到所有部分的出现向量 τ = [ t 1 , t 2 , . . . , t K ] T ∈ ( 0 , 1 ) K τ= [t_1,t_2,...,t_K] ^T∈(0,1)^K τ=[t1t2...tK]T01K上。

正则

关键思想是规范每个部分的出现,通过强制部分出现的经验分布和先验U形Beta分布对齐来完成的

给定 N N N个样本,串联所有向量 τ n τ_n τ

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值