浅析Bag-of-words及Bag-of-features

本文深入浅出地介绍了Bag-of-words和Bag-of-features模型在图像检索中的应用。首先阐述了Bag-of-words的基本概念,接着详细描述了Bag-of-features的四个基础流程:特征提取、学习视觉词典、量化输入特征和构建视觉单词频率直方图。此外,还讨论了图像检索的关键技术,包括TF-IDF加权和倒排表的构建,以提高检索效率和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

Bag-of-words简介

Bag-of-words应用于图像

Bag-of-features基础流程

1、特征提取

2、学习 “视觉词典(visual vocabulary)”

3、针对输入特征集,根据视觉词典进行量化

4、把输入图像转化成视觉单词(visual words)的频率直方图

图像检索

1、TF-IDF

2、倒排表(Inverted file)


Bag-of-words简介

最初的Bag-of-words ,也叫做“词袋”,在信息检索中,Bag-of-words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现。

应用以下实例解释:

文档1: John likes to watch movies. Mary likes movies too.

文档2: John also likes to watch football games.

基于以上两个文档,可以建构出词袋:

["John","likes","to","watch","movies","also","football","games","Mary","too"]

此处有10个不同的词,使用清单的索引表示长度为10的向量:

(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1]         (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

词袋中列举了出现在文档中的每个词,向量(1)和向量(2)的索引内容分别对应到相应文档中该元素出现的次数。

举例来说,向量(1)第一个内容索引是1,即代表第一个索引内容"John"在文档1中出现的次数。后面以此类推。

此向量表示法根据文本中的词频分布,构造出文本描述子,无关原始文档中词的顺序。

通过构建词袋,可以将文档转化为各个单词元素作为横坐标,以单词出现的次数作为纵坐标的直方图,然后进行归一化处理,将每个词出现的频数作为文档的特征。

Bag-of-words应用于图像

类比Bag-of-words在文档中的应用,也可以将图片分成若干个图像块,构建“词库”,把每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合,即Bag-of-features。

Bag-of-features基础流程

1. 特征提取
2. 学习 “视觉词典(visual vocabulary)”
3. 针对输入特征集,根据视觉词典进行量化
4. 把输入图像转化成视觉单词(visual words)的频率直方图

1、特征提取

通过分割、密集或随机采集、关键点或稳定区域、显著区域等方式使图像形成不同的图像块,并获得各图像块处的特征。

特征必须具有较高的区分度,而且要满足旋转不变性以及尺寸不变性等,通常采用SIFT特征(也可以采用SUFT、Harrist等特征提取算法 )。SIFT会从图片上提取出很多特征点,每个特征点都是 128 维的向

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值