ETL系统子系统与技术详解
1. 关系数据库与OLAP立方体
关系数据库并非关系型数据仓库的竞争对手,而是其扩展。应让关系数据库发挥其存储和管理的优势。若架构中包含OLAP立方体,关系维度模式应被视为其基础。从维度模式提供数据是ETL系统的重要组成部分,关系模式是OLAP立方体的首选数据源。
由于许多OLAP系统不直接处理引用完整性或数据清理,理想的架构是在常规ETL流程完成后加载OLAP立方体。部分OLAP工具比关系模式对层次结构更敏感,在加载OLAP立方体前,必须严格确保维度内层次结构的完整性。
- Type 2 SCDs :适合OLAP系统,新的代理键被视为新成员。
- Type 1 SCDs :重述历史的Type 1 SCDs不太适合OLAP。覆盖属性值可能导致使用该维度的所有立方体在后台重新处理、损坏或被丢弃。
2. 数据传播管理器
数据传播管理器负责将符合规范、集成的企业数据从数据仓库展示服务器呈现到其他特殊用途环境所需的ETL流程。许多组织需要从展示层提取数据,与业务伙伴、客户和/或供应商共享,以实现战略目标。一些组织还需向政府机构提交数据以获得报销,如参与医疗保险计划的医疗保健组织。
此外,很多组织购买了打包分析应用程序,这些应用通常不能直接指向现有数据仓库表,因此需要从展示层提取数据并加载到分析应用所需的专有数据结构中。大多数数据挖掘工具也不能直接在展示服务器上运行,需要以特定格式从数据仓库提取数据并提供给数据挖掘工具。
所有这些情况都需要从DW/BI展示服务器
ETL系统核心子系统解析
超级会员免费看
订阅专栏 解锁全文
1268

被折叠的 条评论
为什么被折叠?



