基于摘要的模式表生成:分布式数据处理的高效解决方案
在分布式数据处理中,由于存储、隐私等多种因素,无法将分布式关系中的元组集中到单个关系中进行处理。因此,需要从分布式片段中生成分布式关系的表模式。
1. 问题形式化定义
给定一个水平划分为片段 $(R_1, …, R_n)$ 并分布在不同站点 $(S_1, …, S_n)$ 的分布式关系 $R$,以及一个函数依赖 $R : X → Y$,我们的目标是找到一个模式表 $T_p$,使得条件函数依赖 $(R : X → Y, T_p)$ 满足置信度 $\hat{c}$ 和支持度 $\hat{s}$ 阈值。
2. 算法应满足的性质
- 性质 1 :在分布式关系上成立的模式必然至少在该关系的一个分区上成立。例如,对于给定的函数依赖 $fd3 : [name, country] → [price]$ 以及阈值 $\hat{s}=0.5$ 和 $\hat{c}=0.8$,模式 $(-, |France| ∥ -)$ 在关系 $R$ 以及分区 $R_2$ 上都成立。
- 性质 2 :关系的模式必然包含其子模式。
3. 分布式模式表生成算法
该算法从分布式关系中生成模式表,具体步骤如下:
1. 单分区模式候选生成 :在每个站点 $S_i$ 以分布式方式使用按需算法生成每个分区 $R_i$ 的模式表 $T_{pi}$。根据性质 1,每个表 $T_{pi}$ 的模式将构成整个分布式关系 $R$ 的模式候选。
2
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



