论文笔记：Weakly Supervised Complementary Parts Models for Fine-Grained Image Classification

最新推荐文章于 2023-04-11 17:21:13 发布

原创

最新推荐文章于 2023-04-11 17:21:13 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

Weakly Supervised Complementary Parts Models for Fine-Grained Image Classification from the Bottom Up

以弱监督方式构建互补部分模型，以检索被卷积神经网络检测到的主要目标零件所抑制的信息。

本文认为，之前模型性能主要来自于模型发现输入图像中最有区别的部分的能力，仅关注最有区分的部分，忽略了其他部分，这样有限制。一些图像分类任务需要尽可能掌握完整的对象描述。完整的对象描述不必为一个整体，而可以使用多个部分描述组装在一起。为了消除冗余，此类部分描述应互补。

提出了新的图像分类管道：

目标检测阶段。假设：位于核心区域周围（或者说是边缘）的积极目标建议可以帮助图像分类，因为其包含图像中对象的部分信息。

通过检测进行图像分类的难点：（本文试图以弱监督的方式应对）
1. 在没有边界框注释的情况下执行对象检测
2. 如何利用目标检测结果来提高分类性能
为避免丢失重要的部分，提出了一个由迭代对象实例分割规范化的弱监督目标检测管道：
图像分类阶段

利用在目标检测阶段生成的建议建立互补部分模型，该模型由一个尽可能覆盖多的互补信息的建议子集组成。利用双向长期短期记忆网络对目标零件的深层特征进行编码，进行图像分类。

文章贡献：

弱监督目标检测和语义分割

任务：仅使用图像标签定位和分割图像中的目标。方法有：

本文通过提供粗粒度分割掩模和使用CAM为Mask R-CNN提出的建议，并通过CRF迭代校正对象位置和掩模。

细粒度图像分类

互补零件模型的目标是有效利用隐藏在目标检测阶段生成的目标建议中的丰富信息。每个建议都包含足够信息对目标分类，并且信息互补形成关于对象的更完整描述。

使用LSTM进行上下文编码

通过使用启发式网络、后继网络和单层LSTM挖掘信息丰富的图像部分，解决细粒度图像分类问题。启发式网络负责从建议中提取特征，后继网络负责预测新的建议偏移。单层LSTM用于融合信息，用于最终分类和偏移预测。
并入用于多标签图像分类的LSTM子网，循环发现注意力区域。 LSTM子网顺序预测所定位区域上的语义标记分数，并同时捕获空间依赖性。

补充零件模型中使用LSTM来集成隐藏在检测到的不同对象建议中的丰富信息。利用双向LSTM来学习所有图像块的深层表示。

捕获区分部分M、弱监督方式、迭代细化、三阶段：弱监督目标检测和实例分割、互补零件模型挖掘、上下文编码图像分类。

互补部分模型由一个覆盖整个对象及其上下文的根部分、一个覆盖对象核心区域的中心部分和固定数量的涵盖不同的对象部分但仍然保持足够的区别性信息的周围建议组成。
一个包含n个部件的对象的互补模型被定义为一个n+1元组： $\mathcal A = [A_1 , . . . , A_n , A_{n + 1} ]$ 。其中 $A_1$ 是中心部分， $A_{n+1}$ 是root部分， $A_i$ 是第 $i$ 个部分。
每部分模型通过由 $A_i=[\phi_i,u_i]$ 定义，其中 $\phi_i$