分布式数据处理与工作流查询语言的应用探索
1. 分布式XPath查询的MapReduce处理
1.1 Reduce函数
Reduce函数对输入的键值对进行如下操作:
首先,对输入值应用 getBuckets 函数。该函数基于嵌入数组的统一概念,对输入对值中的三元组进行合理分组。若不存在整数 i 使得两个嵌入数组 K1 和 K2 满足 K1[i] ≠ K2[i] 且 K1[i], K2[i] ≠ * ,则称这两个嵌入数组是可统一的。 getBuckets 函数返回包含元组的集合 B (称为桶),对于查询 Q 分解中的每个查询 P , B 中都有一个描述从 P 嵌入的元组,且 B 中任意两个元组的嵌入数组是可统一的。然后,对于每个桶 B ,归约器定位通过选择路径获得的元组,并输出选择路径的结果。
例如,延续之前的示例,当所有键值对从映射器发出后,有一个归约任务接收所有键为 m7 的对。该归约任务首先调用 getBuckets 函数。由于 Ke1 和 Ke2 不可统一( Ke1[1] ≠ Ke1[2] ),
超级会员免费看
订阅专栏 解锁全文
172万+

被折叠的 条评论
为什么被折叠?



