改善偏斜数据分布下的在线聚合性能
在许多决策支持应用中,如 OLAP 和数据挖掘工具,聚合查询被广泛且频繁地使用。这些应用的共同特点是需要访问和聚合大量数据来响应聚合查询,这在计算上成本高昂(处理时间长)且资源密集。然而,在实际情况中并不总是需要精确答案,因此能够高效地近似回答聚合查询对这些应用大有裨益。
1. 在线聚合技术概述
在线聚合是一种常用的技术,用于快速响应聚合查询,并提供经过细化的近似答案(在估计的置信区间内)。其基本思想是根据随机样本计算近似结果,并随着更多样本的获取不断细化结果。这样,用户可以掌握正在运行的查询的整体进度,如果能快速得到可接受的答案,还可以提前终止查询。
但当数据分布偏斜时,在线聚合通常表现不佳。偏斜数据分布主要通过两个因素影响在线聚合:低选择性和不适当的样本比例。
- 低选择性 :由于数据分布偏斜,满足查询谓词的相关元组数量可能远少于其他元组。在在线聚合的初始阶段,样本中可能很少或没有相关元组,这会导致从如此小的相关元组集合计算出的近似结果误差较大,需要不断细化,从而延长处理时间。
- 不适当的样本比例 :只有当从相关关系中以适当比例抽取样本时,才能快速计算出可接受的估计值。然而,由于数据分布偏斜,在在线聚合的初始阶段,很难高概率地获得适当的样本比例,这会导致误差较大并延长处理时间。
2. 相关工作
为了在短时间内以可接受的结果响应查询,近年来提出了近似查询处理(AQP)技术。在线聚合是一种常用的 AQP 技术,它在查询处理的早期阶段产生一个在运行置信区间内的近似答案,并逐渐细化,直到满足用户的期望。
超级会员免费看
订阅专栏 解锁全文
1202

被折叠的 条评论
为什么被折叠?



