ETL系统子系统与技术解析
1. 数据仓库与OLAP的关系
关系型数据库在数据仓库中扮演着存储和管理的重要角色,它并非是关系型数据仓库的竞争对手,而是一种扩展。若在架构中引入OLAP立方体,关系型维度模式应被视为其基础。从维度模式向OLAP立方体提供数据是ETL系统的重要组成部分,关系型模式是OLAP立方体的首选数据源。
由于许多OLAP系统并不直接处理引用完整性或数据清理,因此建议在完成常规ETL流程后再加载OLAP立方体。同时,部分OLAP工具对层次结构的敏感度高于关系型模式,在加载OLAP立方体之前,必须严格确保维度内层次结构的完整性。
不同类型的缓慢变化维度(SCD)对OLAP系统的适配性不同:
| SCD类型 | 对OLAP系统的适配性 | 原因 |
| ---- | ---- | ---- |
| 类型2 SCD | 适配 | 新的代理键被视为新成员,易于处理 |
| 类型1 SCD | 不适配 | 重写属性值可能导致使用该维度的所有立方体在后台重新处理、损坏或被丢弃 |
2. 数据传播管理器
数据传播管理器负责将数据仓库展示服务器中的整合企业数据,通过ETL流程呈现到其他特定用途的环境中。以下是一些常见的需求场景:
- 与商业伙伴、客户或供应商共享数据以实现战略目标。
- 向政府机构提交数据以获得报销,如参与医疗保险计划的医疗保健组织。
- 为分析应用程序提供数据,这些应用程序通常无法直接访问现有数据仓库表。
- 为数据挖掘工具提供特定格式的数据。
这些场景都需要从DW/BI展示服务器中提取数据,可能进行一些轻量级转换,并加
超级会员免费看
订阅专栏 解锁全文
932

被折叠的 条评论
为什么被折叠?



