4、改善偏斜数据分布下的在线聚合性能

最新推荐文章于 2025-12-10 22:36:03 发布

h0i1j2k3l

最新推荐文章于 2025-12-10 22:36:03 发布

阅读量4

点赞数

CC 4.0 BY-SA版权

分类专栏：探索XML数据查询新范式文章标签：在线聚合偏斜数据分布 POAS

本文链接：https://blog.youkuaiyun.com/h0i1j2k3l/article/details/154169031

探索XML数据查询新范式专栏收录该内容

75 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

改善偏斜数据分布下的在线聚合性能

在许多决策支持应用中，如 OLAP 和数据挖掘工具，聚合查询被广泛且频繁地使用。这些应用的共同特点是需要访问和聚合大量数据来响应聚合查询，这在计算上成本高昂（处理时间长）且资源密集。然而，在实际情况中并不总是需要精确答案，因此能够高效地近似回答聚合查询对这些应用大有裨益。

1. 在线聚合技术概述

在线聚合是一种常用的技术，用于快速响应聚合查询，并提供经过细化的近似答案（在估计的置信区间内）。其基本思想是根据随机样本计算近似结果，并随着更多样本的获取不断细化结果。这样，用户可以掌握正在运行的查询的整体进度，如果能快速得到可接受的答案，还可以提前终止查询。

但当数据分布偏斜时，在线聚合通常表现不佳。偏斜数据分布主要通过两个因素影响在线聚合：低选择性和不适当的样本比例。
- 低选择性 ：由于数据分布偏斜，满足查询谓词的相关元组数量可能远少于其他元组。在在线聚合的初始阶段，样本中可能很少或没有相关元组，这会导致从如此小的相关元组集合计算出的近似结果误差较大，需要不断细化，从而延长处理时间。
- 不适当的样本比例 ：只有当从相关关系中以适当比例抽取样本时，才能快速计算出可接受的估计值。然而，由于数据分布偏斜，在在线聚合的初始阶段，很难高概率地获得适当的样本比例，这会导致误差较大并延长处理时间。