1.数仓分层
数仓分层的目的:
1)功能划分更明确
2)维护方便
宽泛的数仓分层一共有三层:
ODS层:源数据层
作用:对接源数据,将数据源中的数据加载到HDFS中,形成一张张表,和原数据库中保持同样的颗粒度
主要用于存放事实表和少量的维度表。在数据导入到ODS层的过程中,可能会对数据进行清洗(但并不一定会做这个操作)
原因:1、如果数据源来源于数据库,这个时候数据本身就是结构化数据
2、如果数据来源于各种文件,如日志文件等,可能需要对数据进行清洗,将数据转化为结构化数据
DW层:
作用:进行数据的分析工作,数据来源于ODS层
细化分层:
DWD层:明细层
根据要分析的主题, 从ODS层抽取相关的数据, 对数据进行清洗转换处理工作, 然后将数据加载到DWD层, 一般将此层称为 大聚合层, 一般将所有相关的数据全部糅杂在一个表中, 在此过程中, 可以进行一定的维度退化操作
DWM层:中间层
作用: 主要是用于对DWD层进行进一步聚合操作, 同时此层可以进行维度退化的操作, 此层的表一般就是周期快照事实表
DWS层:业务层
作用:主要对DWM层或者DWD层数据, 进行再次细化的聚合统计操作, 在此层需要针对各个维度都进行聚合统计结构了, 将所有维度统计的结果, 放置在一起, 形成宽表数据
注意:这层一般就是数据分析的最终结果
APP层:数据应用层
- 作用: 主要是用于存储DW层分析之后的结果数据, 用于对接后续的应用(图表, 机器学习, 推荐 .....)
- 注意: 如果不需要在针对DWS层, 在此进行统计工作, 注意DWS层就是最终结果数据
- 什么时候需要使用APP层:
当DWS层统计结果, 被划分在多个不同结果表, 需要对DWS层数据进行再次的统计工作, 此时需要将统计的结果存储在APP层
DIM层:维度层
作用:用于放置维度表
说明:当维度表数量较多时,一般放置在维度层
2.Hue相关操作
什么是HUE? hadoop的用户体验
HUE主要的作用将Hadoop中各种相关的软件的操作界面. 给融合在一起, 形成一个统一的操作界面
HUE是一个大集成者
如何进入到HUE操作界面呢?