一.ETL(其实也就是对源数据的清洗)
1.ETL定义:
将业务系统的数据经过抽取、清洗转换之后加载到数据仓库。
2.ETL作用:
企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
3.ETL设计步骤:
数据抽取、数据的清洗转换、数据的加载。
①数据抽取:从各个不同的数据源抽取到ODS,期间将脏数据和不完整数据过滤掉。
②数据清洗和转换:清洗(不完整,错误,重复等数据),转换(行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算).
③数据加载:清洗完的数据直接写入DW层期间进行业务规则的计算和聚合。
二.数仓
1.什么是数据仓库?
主要研究和解决从数据中获取信息的问题,为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
2.数据仓库的本质?
从操作型系统到决策支持系统的数据流架构模型
3.建设数仓的原因?
解决多重数据复制带来的高成本问题。
4.数据仓库的特性
①面向主