凸立方体:迈向多维数据库的统一结构
1. 引言与动机
在处理多维数据库时,数据立方体是一个关键概念。预先计算不同粒度级别的所有可能聚合,能够有效地处理数据立方体并回答联机分析处理(OLAP)查询。近年来,立方体计算也成功应用于数据流的多维分析。在这类应用中,会产生大量细粒度的数据,由于读取成本、数据快速变化以及用户对数据变化快速反应的需求,这些数据流通常只需扫描一次。在这种情况下,计算立方体是解决问题的一种有效方法。
目前,围绕数据立方体的概念已经提出了多种变体:
- 冰山立方体 :受频繁模式启发的部分立方体,通过对度量施加最小阈值约束,仅捕获足够显著的趋势。
- 范围立方体 :可视为冰山立方体的扩展,将度量约束在给定范围内,为用户提供特定“窗口”内的趋势。
- 差分立方体 :展示数据仓库刷新或数据流捕获时出现的新趋势或消失的既定趋势,可看作两个立方体的集合差。
- 新兴立方体 :捕获当前不显著但后来变得显著的趋势,或原本显著但后来变得不显著的趋势,为决策者提供趋势逆转的信息。
然而,这些不同类型的立方体往往被视为查询结果或更高效算法的产物,而不是概念本身。本文提出了一种新颖的统一结构——凸立方体,为表征各种类型的立方体提供了一个合理的框架。具体贡献如下:
- 提出基于立方体格搜索空间的凸立方体结构,考虑单调和反单调约束的组合,并证明其为凸空间,可通过边界进行紧凑表示。
- 利用凸立方体结构,为数据立方体、冰山立方体、范围立方体、差分立方体和新兴立方体提供正式且统一的定义
超级会员免费看
订阅专栏 解锁全文
3618

被折叠的 条评论
为什么被折叠?



