目录
2、学习 “视觉词典(visual vocabulary)”
4、把输入图像转化成视觉单词(visual words)的频率直方图
Bag-of-words简介
最初的Bag-of-words ,也叫做“词袋”,在信息检索中,Bag-of-words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现。
应用以下实例解释:
文档1: John likes to watch movies. Mary likes movies too.
文档2: John also likes to watch football games.
基于以上两个文档,可以建构出词袋:
["John","likes","to","watch","movies","also","football","games","Mary","too"]
此处有10个不同的词,使用清单的索引表示长度为10的向量:
(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
词袋中列举了出现在文档中的每个词,向量(1)和向量(2)的索引内容分别对应到相应文档中该元素出现的次数。
举例来说,向量(1)第一个内容索引是1,即代表第一个索引内容"John"在文档1中出现的次数。后面以此类推。
此向量表示法根据文本中的词频分布,构造出文本描述子,无关原始文档中词的顺序。
通过构建词袋,可以将文档转化为各个单词元素作为横坐标,以单词出现的次数作为纵坐标的直方图,然后进行归一化处理,将每个词出现的频数作为文档的特征。
Bag-of-words应用于图像
类比Bag-of-words在文档中的应用,也可以将图片分成若干个图像块,构建“词库”,把每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合,即Bag-of-features。
Bag-of-features基础流程
1. 特征提取
2. 学习 “视觉词典(visual vocabulary)”
3. 针对输入特征集,根据视觉词典进行量化
4. 把输入图像转化成视觉单词(visual words)的频率直方图
1、特征提取
通过分割、密集或随机采集、关键点或稳定区域、显著区域等方式使图像形成不同的图像块,并获得各图像块处的特征。
特征必须具有较高的区分度,而且要满足旋转不变性以及尺寸不变性等,通常采用SIFT特征(也可以采用SUFT、Harrist等特征提取算法 )。SIFT会从图片上提取出很多特征点,每个特征点都是 128 维的向