基于MapReduce和LSH的可扩展集合相似性连接算法研究
1. 高频率连接属性值的自连接处理
在自连接场景中,对于高频率连接属性值,为确保桶按正确顺序排序,会使用合适的MapReduce 对。键由连接属性值、列和行标识符组成,这些对会通过MapReduce分区函数,依据归约任务标识符进行重定向。对于归约任务,使用如下算法计算高频率连接属性值的连接:
- 将分布式桶存储在内存中(即行标识符为零);
- 计算存储桶内的连接;
- 计算与复制桶的连接。
为减少比较次数,后续还会引入额外的过滤步骤。
2. MRS - join算法
MRS - join是基于MapReduce框架构建的算法,它利用局部敏感哈希(LSH)、分布式直方图和随机通信模板,以保证处理节点间的负载和计算平衡。该算法是多步骤算法,为所有连接计算步骤提供了时间和空间保证。其执行步骤如下:
1. 计算LSH连接属性值;
2. 计算并分布连接的直方图,以保证无论数据分布如何,通信模式都是平衡的;
3. 利用分布式直方图,生成高效且可扩展的通信模板,并计算被识别为相似的对之间的距离,以产生相似性连接输出。
步骤1计算Q个LSH连接属性值,在实现中,此步骤在步骤2和3之前执行。步骤2由两个MapReduce作业组成,第一个用于计算连接的直方图,第二个用于分布它。主要区别在于,直方图是为自连接构建的,并且按块而不是分割进行分布。步骤3利用分布式直方图计算相似性连接,为减少比较次数,在MRSS - join算法的此步骤中引入了额外的过滤器。
3. MRSS - join算法
在ma
超级会员免费看
订阅专栏 解锁全文
557

被折叠的 条评论
为什么被折叠?



