面向大规模图像检索的层次语义索引

大烤翅

于 2021-09-13 11:30:18 发布

阅读量505

点赞数

分类专栏：论文笔记文章标签：读论文论文笔记

本文链接：https://blog.youkuaiyun.com/weixin_39627422/article/details/120263383

版权

Hierarchical Semantic Indexing for Large Scale Image Retrieval

摘要

1 介绍 Introduction

2 相关工作 Related Work

3 运用层次结构的检索 Exploiting Hierarchy for Retrieval

3.1 语义相似度的层次编码

3.2 学习语义属性

4 高效索引 Efficient Indexing

摘要

本文讨论的是相似图像检索的问题，特别是在百万到十亿级别的大规模数据集上。核心新贡献是一个利用先进的语义层次知识的方法。当语义标签和与它们相关的层次结构在训练中可用时，相似图像检索会获得显著的改进。一些优势来源于使用额外的信息的能力，我们的实验探索一种特殊的情况——在没有额外提供数据的情况下，新方法的表现也胜过了目前相似度学习领域的最先进方法OASIS。对于规模更大的问题，利用层次关系是最重要的，因为在这些问题中，可扩展性变得至关重要。我们提出的学习方法基本上是可并行的，因此比以前的工作更易于扩展。一个额外的贡献是一种新的散列方案（a hashing scheme），它可以减少检索计算上的开销（对于概率向量上的双线性相似性，可以选择考虑层次结构）。

1 介绍 Introduction

本文探讨的主要问题：给定一个查询图像，在大的图像集中找到与之相似的图像，如下图。

上图是使用层次结构的检索与不考虑层次结构的检索的对比。绿色的条块表示该图像再分类层次结构中的定义与查询用图像的基本相似度（见5.2节）。条块越长表示相似度越高。

结果显示：使用层次关系可以显著地改善检索精确度。包含层次关系随着数据集变大而变得越来越重要。当类别是密集采样的且必须进行细粒度区分时，潜在的好处最大。为了处理大规模数据，计算上的性能和可扩展性是在检索中运用层次的关键。

我们的方法论证了如何高效地将定义在图像语义属性上的层次结构与先验的人类知识相结合。例如，给定语义属性像是包含马、狗，或者风车，一个预定义的层次结构可能会让我们知道，一张包含马的图像比起包含风车的图像，与包含一只狗的图像更为相似。根据语义属性来规定层次结构是可行的，但是用低级特征直接来做是很困难的。

当前最先进的相似图像检索技术水平来自大量的，学习用于检索的基本相似性函数的工作上。这些工作的目标是，学习出一个直接从图像的低级特征向量中计算相似度的函数，并且不允许可以编码层次结构的各种方法。改编其中一些策略，使其能够考虑使用层次结构是可能的，但是需要改变技术，并且改善方法的可扩展性和并行性并不是必需的。

我们的方法走了一条不同的路，学习去识别图像的语义属性，然后用一个预定义的比较函数——基于一个已知的层次结构，来生成检索的相似度分数。学习识别语义属性很容易并行，因此具有良好的可扩展性。我们指出，在现有的最先进水平上的显著进步在两种情况下是可能的：标签和层次结构已知，或者标签可以被推断出，但是层次结构是不可用的。然而，当标签不可用也不能被推出，我们提出的技术就不再适合。一旦确定了相似度函数，下一个挑战就是针对层次相似度，查询最相似的数据库图像的高效检索。

本文提出了一种新的哈希策略，该策略为检索提供了一个次线性时间解决方案，并形成了一个通用的组件。

2 相关工作 Related Work

主要回顾了层次结构、相似度学习、语义索引，以及哈希检索方面的相关工作。

本文我们论证了使用层次结构来开展一项不同但是又有关联的任务——相似图像检索——能够获得精确度上的显著进步。

目前的许多改进都源于以语义层次结构的形式利用高级知识。这和目前对高级语义属性的识别显式估计的研究相关。尤其是允许检索查询使用语言来描述人脸的语义属性。目前的工作考虑到一种和我们使用的语义表征在内核上相似的表征法，但是它关注的是用这种表征来分类——使用多次训练的样例来作为分类的具体查询，而不是将单个示例作为查询。在多媒体和信息检索领域也有相关工作。

在我们的工作中，使用概率向量的双线性相似度检索是核心的程序，我们也提出了一种新的哈希模式来完成这一工作。请注意，与目前基于学习视觉哈希函数的方法相反的是，它是一种数据独立的哈希方法。