大数据解决方案与物联网:数据管理与分析的全面解析
一、数据仓库与数据集市的发展与应用
1.1 关系型在线分析处理(ROLAP)
随着关系型数据库优化器的成熟,在关系型数据库管理系统中部署星型模式时,能够实现良好的查询性能,这就是关系型在线分析处理(ROLAP)的实现。
1.2 独立数据集市与依赖数据集市的对比
在 20 世纪 90 年代中期,关于企业数据仓库(EDW)和数据集市的实用性存在很多争论。业务分析师发现星型模式更易于操作,常常部署自己的数据集市。为了应对这一情况,一些 IT 数据库程序员在 EDW 的数据和模式之上创建视图,但编程和维护视图的工作往往无法及时满足业务分析师不断增长的需求。
当各个数据集市相互独立定义和部署,且不遵循 EDW 中建立的数据定义规则时,会出现公共数据表示不一致的问题,导致难以确定真实数据的存储位置。不同业务部门构建独立数据集市并直接从联机事务处理(OLTP)源提取数据时,情况会变得非常复杂,甚至数据集市之间也可能直接流动数据,还可能会使用电子表格作为商业智能工具。采用这种方式的组织通常会花费大量时间在业务会议上争论谁的报告能正确反映业务的真实状态,即使这些报告本应展示相同的关键绩效指标(KPIs)。
后来,一种融合的方法成为最佳实践。EDW 逐步实施和扩展,数据集市依赖于 EDW 中的数据定义。数据从 EDW 提取到数据集市中,除非存在与组织中某一特定业务线相关的独特第三方数据,这些数据才会仅存储在该业务线的数据集市中。这种方法通常会定义一致的维度,以确保数据集市之间的一致性,从而可以提交单个查询来访问多个数据集市的数据。