关于ETL过程(1)

  1. 业务需求是数据仓库最终用户的信息需求。即用户需求什么直接决定了数据源的选择。
  2. 对数据仓库的需求分析:
    • 数据源的归档备份和处理后数据的存储。
    • 证明造成数据修改的记录。
    • 记录分配和调整的规则。
    • 证明数据备份的安全性。
  3. 数据评估:在ETL过程之前,对ETL需要使用的数据源的质量,范围和上下文进行检查。
  4. 安全性:要求DWH只向用户提供应该访问的数据。用户安全权限在LDAP服务器中定义,并非是物理表的访问级别决定。
  5. 数据集成:采用格式化的维度和事实表。在分离的数据库中建立公共的维度实体,使用这些实体就可以构建横向钻取型的报表。
  6. 数据延迟:描述数据提交到最终用户的速度。
  7. ETL设计目的:准确执行用户想要完成的工作,加载DWH,大多数工具已经发展成为能够支持从不同的异构数据源抽取数据,完成复杂的数据转换,加载维度DWH的稳定,强大的ETL引擎。
  8. ETL构架:
    • 批处理式数据流:从数据源中周期性的以批处理方式抽取数据,流经整个系统,最后以批处理的方式对最终用户进行批量更新。
    • 流式数据流:(前提:实时性要求变得急迫)记录级数据从源系统不停顿的流向最终用户数据库和屏幕。
  9. 水平方式和垂直方式:
    • 水平方式:任务流相互独立。
    • 垂直方式:前后任务相互依赖。
  10. 数据仓库的后台:后台和前台从物理上,逻辑上以及管理上都是分开的,基于不同的机器,依赖于不同的数据结构,由不同的IT人员管理。
  11. DWH的四个集结步骤:
    • 抽取:源系统的原始数据在转换之前是写在磁盘上的。
    • 清洗:数据质量。
    • 规格化:当多个数据源合并到DWH时需要规格化。
    • 提交:后台任务的终点就是准备好数据以方便查询。
  12. DWH后台必须支持:
    • 从原始数据抽取数据。
    • 保证数据质量,清洗数据。
    • 保证来自各个数据源的数据一致性。
    • 为查询工具,报表,仪表盘提交物理格式的数据。
  13. DWH前台:数据访问
  14. ETL系统是DWH一个主要的组件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值