深度学习之学习（1-3）Bag of Features (BOF)图像检索算法

原创

已于 2022-03-18 10:59:11 修改 · 3.6k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉

于 2022-03-18 10:55:46 首次发布

本文详细介绍了图像分类和检索中的Bag-of-Features（BoF）模型，包括其原理、算法步骤和应用。BoF模型通过K-means聚类生成视觉词汇，将图像特征量化为直方图向量，使用TF-IDF权重进行优化。在实际应用中，结合SIFT特征和空间金字塔匹配（SPM）提高性能。此外，还讨论了BoF存在的问题和解决方案，如特征编码优化和空间信息保留。最后，提到了相关资源和代码实现，以及图像分类的相关技术如VLAD和词袋树。

一、原理

参考：BOF——Bag-of-Featrures

图像可以视为一种文档对象，图像中不同的局部区域或其特征可看做构成图像的词汇，其中相近的区域或其特征可以视作为一个词。这样，就能够把文本检索及分类的方法用到图像分类及检索中去。

Bag-of-Features模型仿照文本检索领域的Bag-of-Words方法，把每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。使用某种聚类算法(如K-means)将局部特征进行聚类，每个聚类中心被看作是词典中的一个视觉词汇(Visual Word)，相当于文本检索中的词，视觉词汇由聚类中心对应特征形成的码字(code word)来表示（可看当为一种特征量化过程，可理解为：码字表示聚类中心的特征矢量，如该类的平均矢量等）。所有视觉词汇形成一个视觉词典(Visual Vocabulary)，对应一个码书(code book)（可理解为：码书是所有聚类中心特征矢量的集合），即码字的集合，词典中所含词的个数反映了词典的大小。

图像中的每个特征都将被映射到视觉词典的某个词上，这种映射可以通过计算特征间的距离去实现，然后统计每个视觉词的出现次数或频率，图像可描述为一个维数相同的直方图向量，即Bag-of-Features，如下图所示，可用直方图向量来表示或表达图像：

由上图可知，对同一词典，不同图像得到的直方图不同，因此可以用直方图向量来表示图像。

视觉词汇计算示意图：

理解：

1）视觉词汇的确定：

计算训练图像中所有图像的关键点和描述，然后在特征空间对关键点聚类，生成类心，每个类心为一个视觉词汇，类心的数目即视觉词典中视觉词汇的个数（训练和聚类过程与图像库中图像的种类无关，只是为了得到一个能表述所有图像特征的视觉词典，该过程类似文档分类中，对相同或相似词汇进行合并，得到一个单词字典）。

2）视觉词汇个数的影响：

视觉词汇的个数即视觉词典的大小，词典大小的选择也是问题，词典过大，单词缺乏一般性，对噪声敏感，计算量大，图象直方图向量的维数高；词典太小，单词区分性能差，对相似的目标特征无法表示。

3）词汇个数的确定问题：
使用k-means聚类，除了其K和初始聚类中心选择的问题外，对于海量数据，输入矩阵的巨大将使得内存溢出及效率低下。有方法是在海量图片中抽取部分训练集分类，使用朴素贝叶斯分类的方法对图库中其余图片进行自动分类。另外，由于图片爬虫在不断更新后台图像集，重新聚类的代价显而易见。

二、算法步骤：

2.1、字典学习训练（train a codebook）

首先我们构造一个字典（也称visual vocabulary），方法如下：

1、特征提取（对所有的训练图像提取SIFT特征）：利用SIFT等局部描述子（SIFT方法最为常用，OpponentSIFT在各类SIFT改进方式综合表现最为优秀）提取图像的特征点，这个过程一般会生成非常多的特征点。
在这里插入图片描述

2、特征聚类：由于一般提取的特征点实在太多（每张训练图片上都会提取到成千上万的特征点），不太适合分析和操作，所以一般会利用K-Means聚类等方法将所以特征点分成K类，这里每个类，我们就称为一个词（codeword/Visual Word），（对提取的所有图的SIFT特征使用kmeans算法得到k个聚类中心）