计算机视觉 图像检索

本文介绍了计算机视觉中的图像检索技术,主要聚焦于Bag-of-features模型。通过提取图像特征,使用K-means聚类生成视觉词汇,将图像转化为直方图向量,并训练分类器进行图像分类。内容包括图像分类原理,视觉单词的生成,Bag-of-features算法的详细步骤,以及代码实现的概要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 原理
1 图像分类方法

        
        视觉词袋模型( Bag-of-features )是当前计算机视觉领域中较为常用的图像表示方法。
        视觉词袋模型来源于词袋模型(Bag-of-words),词袋模型最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定 对于一个文本,忽略其词序和语法、句法, 仅仅将其看做是一些词汇的集合, 而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子 (因为里面装的都是词汇,
        所以称为词袋,Bag of words即因此而来)然后看这个袋子里装的都是些什么词汇,将其分类。
        如果文档中猪、 马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些, 我们就倾向于判断它是一 篇描绘乡村的文档,而不是描述城镇的。
        Bag of Feature也是借鉴了这种思路,只不过在图像中,我们抽出的不再是一个个word, 而是 图像的关键特征Feature,所以研究人员将它更名为Bag of Feature.Bag of Feature在检索中的算法流程和分类几乎完全一样,唯一的区别在于,对于原始的BOF特征,也就是直方图向量,我们引入TF_IDF权值。

2 视觉单词


        视觉单词是图像中的基本单元,它基于子块提取、基于特征点提取和基于对象提取。视觉单词的生成基于图像视觉特征进行(基于子块的视觉单词提取也最终落实到视觉特征上)
        获取视觉词典:假定有N个图像,从每幅图像中检测得到一系列特征(如SIFT特征),可将这些SIFT特征看成图像中的单词。然后我们找到一些方法来寻找这些单词的代表(一般采用聚类算法),这些代表就构成了从N幅图像中提取的视觉单词。

3 Bag-of-features算法和过程


算法过程:
1提取图像特征
2对特征进行聚类,得到一部视觉字典( visual vocabulary )
3根据字典将图片表示成向量(直方图)
4把输入图片转化成视觉单词的频率直方图

1)提取图像特征


        特征提取及描述主要是将一些 具有代表性且 区分性较强的 全局或局部特征从图像中进行抽取,并对这些特征进行描述。
        这些特征一般是类别之间差距比较 明显的特征,可以将其与其他类别区分开,其次,这些特征还要求具有 较好的稳定性,能够最大限度的在光照、视角、尺度、噪声以及各种外在因素变化的情况下保持稳定,不受其影响。这样即使在非常复杂的情况下,计算机也能通过这些稳定的特征很好的检测与识别出这个物体。
        特征提取最简

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值