基于MapReduce的文档最近邻查询及并行作业调度优化
在当今信息爆炸的时代,互联网产生了海量的数据,如何高效地组织和检索这些信息成为了关键问题。文档分类作为信息管理的重要技术,其中最近邻查询是需要解决的核心问题。同时,并行作业调度也面临着诸多挑战,需要更合理的调度策略来提高性能。
文档最近邻查询问题背景
随着Web技术的不断发展,互联网问题逐渐演变为大数据问题,其具有体量大、种类多、速度快和易变性等特点。在文档分类中,最近邻查询是关键环节,但大多数并行最近邻查询方法采用训练集和测试集之间的笛卡尔积,导致时间效率低下。
相关工作
之前的最近邻查询工作主要分为集中式和并行式两类。集中式方法又可细分为无结构和基于结构的方法。无结构方法由于处理整个样本集而耗时,基于结构的方法虽然通过全局数据结构提高了时间效率,但可扩展性较差。具体的改进策略包括:
- 减少相似度计算 :如维度缩减、样本缩减和使用索引进行计算缩减。
- 结构化处理 :提出了k - d树、球树等数据结构来提高查询效率。
方法介绍
文档最近邻查询由文档相似度和邻居查询两个阶段组成,在邻居查询阶段提出了两种算法:
暴力算法(brute - force)
- 组成阶段 :由复制和过滤两个阶段组成,需要一个Map - Reduce过程。
- 具体操作 :为了获取每个文档的最近邻,每个文档对的相似度会被复制两次,生成的所有
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



