4、改善偏斜数据分布下的在线聚合性能

改善偏斜数据分布下的在线聚合性能

在许多决策支持应用中,如 OLAP 和数据挖掘工具,聚合查询被广泛且频繁地使用。这些应用的共同特点是需要访问和聚合大量数据来响应聚合查询,这在计算上成本高昂(处理时间长)且资源密集。然而,在实际情况中并不总是需要精确答案,因此能够高效地近似回答聚合查询对这些应用大有裨益。

1. 在线聚合技术概述

在线聚合是一种常用的技术,用于快速响应聚合查询,并提供经过细化的近似答案(在估计的置信区间内)。其基本思想是根据随机样本计算近似结果,并随着更多样本的获取不断细化结果。这样,用户可以掌握正在运行的查询的整体进度,如果能快速得到可接受的答案,还可以提前终止查询。

但当数据分布偏斜时,在线聚合通常表现不佳。偏斜数据分布主要通过两个因素影响在线聚合:低选择性和不适当的样本比例。
- 低选择性 :由于数据分布偏斜,满足查询谓词的相关元组数量可能远少于其他元组。在在线聚合的初始阶段,样本中可能很少或没有相关元组,这会导致从如此小的相关元组集合计算出的近似结果误差较大,需要不断细化,从而延长处理时间。
- 不适当的样本比例 :只有当从相关关系中以适当比例抽取样本时,才能快速计算出可接受的估计值。然而,由于数据分布偏斜,在在线聚合的初始阶段,很难高概率地获得适当的样本比例,这会导致误差较大并延长处理时间。

2. 相关工作

为了在短时间内以可接受的结果响应查询,近年来提出了近似查询处理(AQP)技术。在线聚合是一种常用的 AQP 技术,它在查询处理的早期阶段产生一个在运行置信区间内的近似答案,并逐渐细化,直到满足用户的期望。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值