计算机视觉—BOW图像检索

最新推荐文章于 2022-06-18 23:10:11 发布

原创

最新推荐文章于 2022-06-18 23:10:11 发布

· 703 阅读

1 ·

版权

本文介绍了基于内容的图像检索技术，重点讲解了Bag of Features(BOW)算法的原理，包括图像描述为视觉词汇的集合、K-means聚类生成词典、TF-IDF转化成直方图等步骤。并通过实验过程展示了数据集使用、代码实现和结果分析，探讨了BOW在图像检索中的优势和局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BOW图像检索

一、图像检索
- 1.1图像检索原理
- 1.2实现步骤
二、实验过程
三、实验总结

一、图像检索

1.1图像检索原理

1、图像检索
简单的说便是从图片检索数据库中检索出满足条件的图片，图像检索技术的研究根据描述图像内容方式的不同可以分为两类：一类是基于文本的图像检索技术，一类为基于内容的图像检索技术。它最早用于对于文章内容的检索，原理是将文本看作是单词的集合，不考虑其中的语法，上下文等等。通过建立词典，对每个单词出现次数进行统计，以便得到文本内容的分类。计算机视觉的专家从中获得灵感，将其用于图像的检索中，就有了Bag Of Features。
2、Bag of Feature 算法
1、Bag-of-Features模型仿照文本检索领域的Bag-of-Words方法，把每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。使用某种聚类算法(如K-means)将局部特征进行聚类，每个聚类中心被看作是词典中的一个视觉词汇(Visual Word)，相当于文本检索中的词，视觉词汇由聚类中心对应特征形成的码字(code word)来表示（可看当为一种特征量化过程）。所有视觉词汇形成一个视觉词典(Visual Vocabulary)，对应一个码书(code book)，即码字的集合，词典中所含词的个数反映了词典的大小。图像中的每个特征都将被映射到视觉词典的某个词上，这种映射可以通过计算特征间的距离去实现，然后统计每个视觉词的出现与否或次数，图像可描述为一个维数相同的直方图向量，即Bag-of-Features。

2、Bag-of-Features算法
Bag-of-Features模型仿照文本检索领域的Bag-of-Words方法，把每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。使用某种聚类算法(如K-means)将局部特征进行聚类，每个聚类中心被看作是词典中的一个视觉词汇(Visual Word)，相当于文本检索中的词，视觉词汇由聚类中心对应特征形成的码字(code word)来表示（可看当为一种特征量化过程）。所有视觉词汇形成一个视觉词典(Visual Vocabulary)，对应一个码书(code book)，即码字的集合，词典中所含词的个数反映了词典的大小。图像中的每个特征都将被映射到视觉词典的某个词上，这种映射可以通过计算特征间的距离去实现，然后统计每个视觉词的出现与否或次数，图像可描述为一个维数相同的直方图向量，即Bag-of-Features。

Bag-of-Features更多地是用于图像分类或对象识别。对训练集提取Bag-of-Features特征，在某种监督学习（如:SVM）的策略下，对训练集的Bag-of-Features特征向量进行训练，获得对象或场景的分类模型；对于待测图像，提取局部特征，计算局部特征与词典中每个码字的特征距离，选取最近距离的码字代表该特征，建立一个统计直方图，统计属于每个码字的特征个数，即为待测图像之Bag-of-Features特征；在分类模型下，对该特征进行预测从实现对待测图像的分类。

1.2实现步骤

1.特征提取
局部特征提取：通过分割、密集或随机采集、关键点或稳定区域、显著区域等方式使图像形成不同的patches，并获得各patches处的特。其中，SIFT特征较为流行。
2.采用K-means算法学习“视觉词典”（visual vocabulary）
由聚类中心代表的视觉词汇形成视觉词典
3.针对输入特征集，根据视觉词典进行量化
4.把输入图像，根据TF-IDF转化成视觉单词（ visual words）的频率直方图
TF-IDF是一种用于信息检索的经常使用加权技术，在文本检索中。用以评估词语对于一个文件数据库中的当中一份文件的重要程度。词语的重要性随着它在文件里出现的频率成正比添加，但同一时候会随着它在文件数据库中出现的频率成反比下降。TF的主要思想是:假设某个关键词在一篇文章中出现的频率高。说明该词语能够表征文章的内容。该关键词在其它文章中非常少出现，则觉得此词语具有非常好的类别区分度，对分类有非常大的贡献。IDF的主要思想是:假设文件数据库中包括词语A的文件越少。则IDF越大，则说明词语A具有非常好的类别区分能力。
词频(Term Frequency。TF)指的是一个给定的词语在该文件里出现的次数。如：tf = 0.030 ( 3/100 )表示在包括100个词语的文档中, 词语’A’出现了3次。
逆文档频率(Inverse Document Frequency。IDF)是描写叙述了某一个特定词语的普遍重要性。假设某词语在很多文档中都出现过，表明它对文档的区分力不强，则赋予较小的权重;反之亦然。
5.构造特征到图像的倒排表，通过倒排表快速索引相关图像
6.根据索引结果进行直方图匹配

二、实验过程

2.1数据集

在这里插入图片描述

2.2代码

1、生成词典：

# -*- coding: utf-8 -*-
import pickle
from PCV.imagesearch import vocabulary
from PCV.tools.imtools import get_imlist
from PCV.localdescriptors import sift

#获取图像列表
imlist = get_imlist('C:/Users/apple/Desktop/计算机视觉/图像检索')
nbr_images = len(imlist)
#获取特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]

#提取文件夹下图像的sift特征
for i in range(nbr_images):
    sift.process_image(imlist[i], featlist[i]

最低0.47元/天解锁文章