hive数据仓库构建ods层模型案例

hive数据仓库构建ods层模型案例

ODS(operational data store) 操作数据存储层, 又叫贴源层, 通常只把业务系统的数据抽取到hdfs,不做任务处理. 分为离线和实时同步,离线这块用的组件一般是sqoop,kettle及大厂自研的数据同步软件. 实时这块通常是通过canel读取数据库操作日志写入kafka,使用flink读kafka写hdfs.

从增量和全量的角度来看分为以下三种:离线全量,离线增量,实时增量

当前只讨论离线的方式如何来构建hive的ods层模型

1.查询业务表数据
select * from t1;
id	name	createtime	updatetime
1	p1	2024-12-03 00:00:00.0	2024-12-03 00:00:00.0
2	p2	2024-12-03 00:00:00.0	2024-12-03 00:00:00.0
3	p3	2024-12-03 00:00:00.0	2024-12-03 00:00:00.0

2.建hive内表
CREATE TABLE test_db.t1(
  id string, 
  name string, 
  createtime string, 
  updatetime string
)
partitioned by (etl_date string)
row format delimited fields terminated by '|' 
STORED AS textfile
;

3.sqoop同步全量数据到hdfs -> 离线每天全量(每天同步业务系统全量数据到hdfs,在hive做先删后插):
${sqoop_home}/sqoop import \
-Dorg.apache.sqoop.splitter.allow_text_splitter=true \
--connect jdbc:mysql://10.22.133.144:2883/prdb \
--username yjx_dml \
--password 'test#123' \
--driver com.oceanbase.jdbc.Driver \
--fields-termin
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值