ETL系统:架构、子系统与数据处理技巧
1. ETL系统的关键考量
在构建和管理ETL系统时,有几个关键方面需要考虑,这些因素会影响系统的设计和实施。
1.1 数据存档与元数据
对于存档数据,需要根据旧的处理算法进行处理,特别是当时间足够长或者无法重新创建原始提取时。每个存档数据集都应附带描述数据来源和处理步骤的元数据,这不仅是某些合规性要求的明确规定,也是所有存档情况的必要组成部分。同时,要列出将被存档的数据来源、中间数据步骤,以及保留策略、合规性、安全性和隐私限制。
1.2 BI交付接口
ETL系统的最后一步是将数据交接给BI应用程序。ETL团队应与建模团队紧密合作,负责数据的内容和结构,确保BI应用程序简单快速。避免将完整的规范化物理模型交给BI应用程序,而应构建维度结构进行最终交接。此外,ETL团队和数据建模人员需要与BI应用程序开发人员密切合作,确定数据交接的具体要求,包括列出将直接暴露给BI工具的事实表和维度表、OLAP立方体和特殊数据库结构,以及为支持BI性能而构建的索引和聚合。
1.3 可用技能
ETL系统的设计决策应基于可用资源。例如,如果内部没有C++编程技能或无法合理获取,就不应构建依赖关键C++处理模块的系统。在决定是手动编写ETL系统代码还是使用供应商的ETL包时,要考虑员工和管理人员的熟悉程度以及决策的长期影响。同时,要盘点部门在操作系统、ETL工具、脚本语言、编程语言、SQL、DBMS和OLAP等方面的技能,了解技能短缺或流失的风险,并列出支持当前和未来系统所需的技能。
1.4 遗留许可证
在许多情况下,高级管理层可
超级会员免费看
订阅专栏 解锁全文
6万+

被折叠的 条评论
为什么被折叠?



