论文笔记：Selective Convolutional Descriptor Aggregation for Fine-Grained Image Retrieval

最新推荐文章于 2024-07-27 16:15:13 发布

原创

最新推荐文章于 2024-07-27 16:15:13 发布 · 2.1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉

本文提出了一种无监督的细粒度图像检索方法——选择性卷积描述符聚合（SCDA），通过定位主要对象并清除背景噪声来提取有用特征。SCDA在多个细粒度数据集上表现出色，同时其特征对应于可视属性。该方法包括选择性地选择和聚合卷积描述符，并通过多层集成提高性能。实验结果证明了SCDA在细粒度检索任务上的有效性，并且可以应用于通用图像检索。

Selective Convolutional Descriptor Aggregation for Fine-Grained Image Retrieval

文章目录

Selective Convolutional Descriptor Aggregation for Fine-Grained Image Retrieval

选择性卷积描述符聚合用于细粒度图像检索

0 摘要

无监督式的细粒度图片检索

本文提出了选择性卷积描述符聚合(SCDA)方法：

定位图片中主要对象，清除背景中的噪声保留有用描述符
选中的描述符聚合并降维为一个短特征向量

在6个细粒度数据集上验证了SCDA的有效性。可视化特征表明它们对应于可视属性（甚至可以解释SCDA的高平均精度）。在通用图像检索数据集上，SCDA效果达到SOTA。

1 引言

提出了细粒度图像检索FGIR（无监督）：给定相同物种的数据库图像并进行查询，返回与查询种类相同的图像，不借助其他监督信息。

提出选择性卷积描述聚集方法，定位主要对象提取区别特征。

贡献：

定位主要对象的方法，无监督式
降维的实践
视觉属性的响应

也可以当作一种迁移学习。

2 相关工作

深度学习用于图像检索

大多数图像检索方法基于局部特征（eg, SIFT）和基于这些局部特征的特征聚合策略（VLAD、FV）。CNN成功之后，图像检索也包含了深度学习，深度描述符可以用于图像检索并且取得满意效果（MOP-CNN及其他变体）。

本文的方法对卷积描述符是选择有用的并移除背景噪声，不像之前的有用的没用的都用上。通用图像检索方法对细粒度图像检索任务并不适用。

细粒度图像的任务

细粒度分类：区别特征表示方法、对齐目标、基于部分表示。都需要图像级别的标签，没有无监督式的方法。

细粒度搜索：层次式数据库（细粒度数据集+通用数据集）元类—细粒度子类

细粒度检索：单一物种图像

3 方法

3.1 预备知识

特征图
激活
描述符：激活的 $d$ 维分量向量

特征图 $h\times w\times d$ 的两种解读视角： $d$ 个大小 $h\times w$ 的二维图 $S$ ； $h\times w$ 个包含 $d$ 维向量的单元 $X=\{x_{(i,j)}\}$ 。

3.2 选择卷积描述符

特征图的激活区域可能暗示着有语义的目标部分，但也有可能是背景噪声。即使是同一特征通道，表示的部分也可能不同，甚至是噪声。对特征通道的选择至关重要。

尽管单通道不是很有用，但多个通道在同一区域高响应，可以相信该区域是对象而非背景，聚合图 $A=\sum_{n=1}^dS_n$ （也就是把特征图跨层求和，从3D压扁成2D，大小还是hw）。特定位置的激活响应越高，对应区域成为对象一部分的可能性越大。计算 $A$ 中所有位置的平均值 $\bar a$ 作为阈值，以确定哪些位置定位对象，得到掩模 $M$
$M_{i,j}=\begin{cases}1,A_{i,j}>\bar a\\0, .o.w\end{cases}$

最低0.47元/天解锁文章