数仓分层+Hue操作+Oozie+sqoop导数据操作

本文介绍了数仓的分层架构,并详细阐述了如何使用Hue操作界面,以及通过Oozie调度工具进行工作流管理。同时,重点讲解了sqoop在数据导入导出中的应用,包括从MySQL到HDFS、Hive的全量和增量导入,以及从Hive到MySQL的全量导出,详细列出了各步骤和所需参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.数仓分层

数仓分层的目的:
	1)功能划分更明确
	2)维护方便
宽泛的数仓分层一共有三层:
	ODS层:源数据层
		作用:对接源数据,将数据源中的数据加载到HDFS中,形成一张张表,和原数据库中保持同样的颗粒度
		主要用于存放事实表和少量的维度表。在数据导入到ODS层的过程中,可能会对数据进行清洗(但并不一定会做这个操作)
		原因:1、如果数据源来源于数据库,这个时候数据本身就是结构化数据
				   2、如果数据来源于各种文件,如日志文件等,可能需要对数据进行清洗,将数据转化为结构化数据
	DW层:
		作用:进行数据的分析工作,数据来源于ODS层
		细化分层:
		DWD层:明细层
			根据要分析的主题, 从ODS层抽取相关的数据, 对数据进行清洗转换处理工作, 然后将数据加载到DWD层, 一般将此层称为 大聚合层, 一般将所有相关的数据全部糅杂在一个表中, 在此过程中, 可以进行一定的维度退化操作
		DWM层:中间层
			作用: 主要是用于对DWD层进行进一步聚合操作, 同时此层可以进行维度退化的操作, 此层的表一般就是周期快照事实表
		DWS层:业务层
			作用:主要对DWM层或者DWD层数据, 进行再次细化的聚合统计操作,  在此层需要针对各个维度都进行聚合统计结构了, 将所有维度统计的结果, 放置在一起, 形成宽表数据
			注意:这层一般就是数据分析的最终结果
	APP层:数据应用层
		- 作用: 主要是用于存储DW层分析之后的结果数据, 用于对接后续的应用(图表, 机器学习, 推荐 .....)
		- 注意: 如果不需要在针对DWS层, 在此进行统计工作, 注意DWS层就是最终结果数据
		- 什么时候需要使用APP层: 
			当DWS层统计结果, 被划分在多个不同结果表, 需要对DWS层数据进行再次的统计工作, 此时需要将统计的结果存储在APP层
	DIM层:维度层
		作用:用于放置维度表
		说明:当维度表数量较多时,一般放置在维度层

2.Hue相关操作

什么是HUE? hadoop的用户体验
 HUE主要的作用将Hadoop中各种相关的软件的操作界面. 给融合在一起, 形成一个统一的操作界面
 HUE是一个大集成者

如何进入到HUE操作界面呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值