1.HUE工具介绍使用
HUE是CDH提供一个hive和hdfs的操作工具,在hue中编写了hiveSQl也可以操作hdfs的文件
http://主机名字:端口号 hdfs的web访问端口
http://主机名字:端口号 hdfs的程序访问端口
进入后确保hdfs hive yarn 开启 在点击hue开启
在这里面也可以进行hive的sql操作,但是不太建议,依旧还是使用datagrip进行操作
2.数仓介绍
数据仓库是由一整套体系构成,包含数据采集,数据存储,数据计算,数据展示等
数据仓库主要作用对过往的历史数据进行分析处理,为公司决策停供数据支撑。
2-1 数仓特征
-
面向主题
-
集成性
-
非易失性
-
时变性
2-2 OLTP和OLAP
OLTP(On-Line Transaction Processing)即联机事务处理,也称为面向交易的处理过程,
OLAP(On-Line Analytical Processing)即联机分析处理,有时也称为决策支持系统(DSS)
2-3 ETL
ETL(Extra, Transfer, Load)包括数据抽取、数据转换、数据导入三个过程。