计算机视觉图像检索

最新推荐文章于 2024-09-10 17:04:53 发布

shirakami00

最新推荐文章于 2024-09-10 17:04:53 发布

阅读量275

点赞数

文章标签：计算机视觉机器学习聚类

本文链接：https://blog.youkuaiyun.com/shirakami00/article/details/125361792

版权

本文介绍了计算机视觉中的图像检索技术，主要聚焦于Bag-of-features模型。通过提取图像特征，使用K-means聚类生成视觉词汇，将图像转化为直方图向量，并训练分类器进行图像分类。内容包括图像分类原理，视觉单词的生成，Bag-of-features算法的详细步骤，以及代码实现的概要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一原理
1 图像分类方法

        视觉词袋模型( Bag-of-features )是当前计算机视觉领域中较为常用的图像表示方法。
        视觉词袋模型来源于词袋模型(Bag-of-words)，词袋模型最初被用在文本分类中，将文档表示成特征矢量。它的基本思想是假定对于一个文本，忽略其词序和语法、句法, 仅仅将其看做是一些词汇的集合, 而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子 (因为里面装的都是词汇，
        所以称为词袋，Bag of words即因此而来)然后看这个袋子里装的都是些什么词汇，将其分类。
        如果文档中猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些，而银行、大厦、汽车、公园这样的词汇少些, 我们就倾向于判断它是一篇描绘乡村的文档，而不是描述城镇的。
        Bag of Feature也是借鉴了这种思路，只不过在图像中，我们抽出的不再是一个个word, 而是图像的关键特征Feature,所以研究人员将它更名为Bag of Feature.Bag of Feature在检索中的算法流程和分类几乎完全一样,唯一的区别在于，对于原始的BOF特征，也就是直方图向量，我们引入TF_IDF权值。

2 视觉单词

视觉单词是图像中的基本单元，它基于子块提取、基于特征点提取和基于对象提取。视觉单词的生成基于图像视觉特征进行（基于子块的视觉单词提取也最终落实到视觉特征上）
获取视觉词典：假定有N个图像，从每幅图像中检测得到一系列特征（如SIFT特征），可将这些SIFT特征看成图像中的单词。然后我们找到一些方法来寻找这些单词的代表（一般采用聚类算法），这些代表就构成了从N幅图像中提取的视觉单词。

3 Bag-of-features算法和过程

算法过程:
1提取图像特征
2对特征进行聚类，得到一部视觉字典( visual vocabulary )
3根据字典将图片表示成向量(直方图)
4把输入图片转化成视觉单词的频率直方图

1)提取图像特征

        特征提取及描述主要是将一些具有代表性且区分性较强的全局或局部特征从图像中进行抽取，并对这些特征进行描述。
        这些特征一般是类别之间差距比较明显的特征，可以将其与其他类别区分开，其次，这些特征还要求具有较好的稳定性，能够最大限度的在光照、视角、尺度、噪声以及各种外在因素变化的情况下保持稳定，不受其影响。这样即使在非常复杂的情况下，计算机也能通过这些稳定的特征很好的检测与识别出这个物体。
        特征提取最简