网络搜索与大规模图像检索中的相似度应用
1 网络搜索中的相似度
网络搜索引擎在当今信息时代至关重要,截至 2013 年年中,活跃的网站超过 6.6 亿个。用户不仅期望搜索引擎能快速、免费地提供优质搜索结果,还对搜索效率和相关性有较高要求。搜索引擎主要由三部分组成:
- 爬虫:负责从网络收集数据。
- 索引器:将收集到的数据转换为可搜索的压缩表示(索引)。
- 查询处理器:利用索引返回与用户查询最相关的网页。
1.1 文本相似度的应用
- 去重与垃圾邮件检测 :在爬虫阶段,文本相似度用于网页去重,例如查找镜像网站,同时也用于检测网页文本垃圾邮件。由于网络数据量巨大,通常会使用概率技术,如 shingles 算法来提高效率。
- 网页排名 :文本相似度还用于网页排名,通过标准的信息检索度量,如基于词的向量模型中的余弦距离,并结合 BM25 等加权技术。
- 其他应用 :文本相似度在网络的词法和语义聚类以及网页族谱研究中也有应用,即研究网页是如何从其他网页创建而来的。
1.2 链接相似度的应用
基于链接属性的相似度主要用于检测链接垃圾邮件,同时也是网页搜索排名和网页推荐的一部分。
1.3 查询相似度的应用
查询相似度对于生成查询建议和推荐非常有用,还可以用于提取查询之间的语义关系。由于查询空间较为稀疏,大多数查询相似度度量是间接的。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



