数据仓库聚合与商业智能工具应用解析
聚合的重要性与原则
在数据仓库中,聚合是提升维度模型性能的主要工具。不过,在使用聚合时,有一些关键原则需要遵循。首先,不要在同一个表中存储不同级别的聚合数据,因为这很容易导致重复计算甚至更严重的问题。为了避免这个问题,需要在每个查询中对级别列进行约束。如果需要存储汇总多个维度的聚合数据,那么在其他维度中也需要级别列。例如,对于月/品牌/销售代表的聚合,需要在日期维度中有一个级别列来识别月份,在产品维度中有一个级别列来识别品牌,在客户维度中有一个级别列来区分特定客户和所有客户。即使某个维度不是查询的一部分,也必须对这些级别列进行约束,以避免重复计算。
聚合还必须满足以下几个条件:
- 提供与原始模式相同的查询结果,在设计时遵循一致性原则有助于保证这一点。
- 查询必须编写成能够利用聚合的形式,一致性原则能让这一过程尽可能简单。
- 聚合可以对最终用户隐藏,这样他们就不必选择使用哪个模式。但如果没有聚合导航功能,他们将无法获得性能提升。
- 聚合必须与基础模式保持同步。虽然只处理更改的数据很有用,但聚合维度中的类型 1 更改可能会使这变得非常困难。
- 立方体是很好的聚合形式,它们以与聚合星型相同的方式汇总基础模式中的数据。
聚合的实现与工具支持
聚合可以在不向数据仓库架构添加任何特殊工具的情况下实现。然而,许多软件产品具有一些功能,使聚合的创建和使用更加容易:
- 聚合导航功能 :自动制定 SQL 以访问聚合。不同工具以各种方式提供此功能,最好的工具可以在不重写查询或重新编译报告的情况下利用新的聚合。有些工具还提供实时使聚合上
超级会员免费看
订阅专栏 解锁全文
1590

被折叠的 条评论
为什么被折叠?



