-
概述
ETL是数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统数据仓库一般分为四层模型。
分层的作用
-
STG层
在维度建模阶段已经确定了源系统,而且对源系统进行了数据评估。STG层是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。
STG的作用
开发步骤
- 确定CDC策略,根据源系统的数据状况选择一个合适的CDC策略。
- 设计Mapping文档。
- 设计物理模型,STG的物理模型一般包括源系统的所有字段和审计字段,例如:源系统名称,源表名称,加载时间,加载方式。可以去掉其他约束条件,比如主键、索引,默认值。如果源表和目标表的数据库类型不同,最好字段长度要进行扩充,一般目标表的数据类型就选择几种常用,长度就选择几个固定的长度。
- 抽取数据,STG层面向异构数据源,最好选择用ETL工具,一般ETL工具都支持多种数据源。STG层不做数据转换。