- 业务需求是数据仓库最终用户的信息需求。即用户需求什么直接决定了数据源的选择。
- 对数据仓库的需求分析:
- 数据源的归档备份和处理后数据的存储。
- 证明造成数据修改的记录。
- 记录分配和调整的规则。
- 证明数据备份的安全性。
- 数据评估:在ETL过程之前,对ETL需要使用的数据源的质量,范围和上下文进行检查。
- 安全性:要求DWH只向用户提供应该访问的数据。用户安全权限在LDAP服务器中定义,并非是物理表的访问级别决定。
- 数据集成:采用格式化的维度和事实表。在分离的数据库中建立公共的维度实体,使用这些实体就可以构建横向钻取型的报表。
- 数据延迟:描述数据提交到最终用户的速度。
- ETL设计目的:准确执行用户想要完成的工作,加载DWH,大多数工具已经发展成为能够支持从不同的异构数据源抽取数据,完成复杂的数据转换,加载维度DWH的稳定,强大的ETL引擎。
- ETL构架:
- 批处理式数据流:从数据源中周期性的以批处理方式抽取数据,流经整个系统,最后以批处理的方式对最终用户进行批量更新。
- 流式数据流:(前提:实时性要求变得急迫)记录级数据从源系统不停顿的流向最终用户数据库和屏幕。
- 水平方式和垂直方式:
- 水平方式:任务流相互独立。
- 垂直方式:前后任务相互依赖。
- 数据仓库的后台:后台和前台从物理上,逻辑上以及管理上都是分开的,基于不同的机器,依赖于不同的数据结构,由不同的IT人员管理。
- DWH的四个集结步骤:
- 抽取:源系统的原始数据在转换之前是写在磁盘上的。
- 清洗:数据质量。
- 规格化:当多个数据源合并到DWH时需要规格化。
- 提交:后台任务的终点就是准备好数据以方便查询。
- DWH后台必须支持:
- 从原始数据抽取数据。
- 保证数据质量,清洗数据。
- 保证来自各个数据源的数据一致性。
- 为查询工具,报表,仪表盘提交物理格式的数据。
- DWH前台:数据访问
- ETL系统是DWH一个主要的组件。