基于成对相似度和MapReduce的文档最近邻查询
1. 引言
在当今互联网时代,人们被海量信息所淹没,如何从大量网页中检索所需信息成为关键问题。文档分类是搜索引擎用于信息管理的典型技术之一,而最近邻查询则是其中需要解决的核心问题。传统的K - 最近邻(KNN)查询虽然是一种常用的最近邻搜索技术,但由于需要在所有训练样本(T)和测试样本(S)之间进行相似度计算,其时间复杂度高达O(|T|*|S|)。随着动态网站数量的指数级增长,大数据相关问题超出了串行集中式方法的计算能力。不过,Hadoop集群的MapReduce框架为解决这些问题提供了新的途径。本文将介绍两种基于成对相似度的文档最近邻查询算法:蛮力法(brute - force)和预过滤法(pre - filtering)。
2. 相关工作
最近邻查询在计算机科学中是一个基础任务,应用广泛。KNN作为典型的最近邻查询方法,高时间复杂度是其致命缺陷。为提高时间效率,主要有两种策略:减少相似度计算和结构化处理。
2.1 减少相似度计算
- 维度缩减 :通过选择最少数量的相关特征来提高时间效率。
- 样本缩减 :使用浓缩(分组)样本,去除不增加额外信息的样本。
- 索引计算缩减 :利用索引对样本进行排序,加快邻居选择速度。
2.2 结构化处理
- k - d树 :能通过单一数据结构高效处理多种查询,但划分边界不太合理。
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



