目录
7.1 基于内容的图像检索
在大型图像数据库上,CBIR技术用于检索在视觉上具相似性的图像。在过去的几年里,研究者成功地引入文本挖掘技术到 CBIR 中处理问题,使在数百万图像中搜索具有相似内容的图像成为可能。
从文本挖掘中获取灵感——矢量空间模型
矢量空间模型是一个用于表示和搜索文本文档的模型。矢量包含了每个单词出现的次数,由于其忽略了单词出现的顺序及位置,该模型也被称为 BOW 表示模型。
最常用的权重是 tf-idf
(
term frequency-inverse document frequency
,词频
-
逆向文
档频率
)
,单词
w
在文档
d
中的
词频
是:
nw
是单词
w
在文档
d
中出现的次数。为了归一化,将
n
w
除以整个文档中单词的总数。
逆向文档频率为:
|D|
是在语料库
D
中文档的数目,分母是语料库中包含单词
w
的文档数
d
。将两者
相乘可以得