9、基于摘要的模式表生成:分布式数据处理的高效解决方案

基于摘要的模式表生成:分布式数据处理的高效解决方案

在分布式数据处理中,由于存储、隐私等多种因素,无法将分布式关系中的元组集中到单个关系中进行处理。因此,需要从分布式片段中生成分布式关系的表模式。

1. 问题形式化定义

给定一个水平划分为片段 $(R_1, …, R_n)$ 并分布在不同站点 $(S_1, …, S_n)$ 的分布式关系 $R$,以及一个函数依赖 $R : X → Y$,我们的目标是找到一个模式表 $T_p$,使得条件函数依赖 $(R : X → Y, T_p)$ 满足置信度 $\hat{c}$ 和支持度 $\hat{s}$ 阈值。

2. 算法应满足的性质
  • 性质 1 :在分布式关系上成立的模式必然至少在该关系的一个分区上成立。例如,对于给定的函数依赖 $fd3 : [name, country] → [price]$ 以及阈值 $\hat{s}=0.5$ 和 $\hat{c}=0.8$,模式 $(-, |France| ∥ -)$ 在关系 $R$ 以及分区 $R_2$ 上都成立。
  • 性质 2 :关系的模式必然包含其子模式。
3. 分布式模式表生成算法

该算法从分布式关系中生成模式表,具体步骤如下:
1. 单分区模式候选生成 :在每个站点 $S_i$ 以分布式方式使用按需算法生成每个分区 $R_i$ 的模式表 $T_{pi}$。根据性质 1,每个表 $T_{pi}$ 的模式将构成整个分布式关系 $R$ 的模式候选。
2

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值