hive数据仓库构建ods层模型案例

隔壁老登

已于 2024-12-06 22:40:20 修改

阅读量353

点赞数 2

于 2024-12-06 22:34:47 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_45547818/article/details/144301759

版权

hive数据仓库构建ods层模型案例

ODS(operational data store) 操作数据存储层, 又叫贴源层, 通常只把业务系统的数据抽取到hdfs,不做任务处理. 分为离线和实时同步,离线这块用的组件一般是sqoop,kettle及大厂自研的数据同步软件. 实时这块通常是通过canel读取数据库操作日志写入kafka,使用flink读kafka写hdfs.

从增量和全量的角度来看分为以下三种:离线全量,离线增量,实时增量

当前只讨论离线的方式如何来构建hive的ods层模型

1.查询业务表数据
select * from t1;
id	name	createtime	updatetime
1	p1	2024-12-03 00:00:00.0	2024-12-03 00:00:00.0
2	p2	2024-12-03 00:00:00.0	2024-12-03 00:00:00.0
3	p3	2024-12-03 00:00:00.0	2024-12-03 00:00:00.0

2.建hive内表
CREATE TABLE test_db.t1(
  id string, 
  name string, 
  createtime string, 
  updatetime string
)
partitioned by (etl_date string)
row format delimited fields terminated by '|' 
STORED AS textfile
;

3.sqoop同步全量数据到hdfs -> 离线每天全量(每天同步业务系统全量数据到hdfs,在hive做先删后插):
${sqoop_home}/sqoop import \
-Dorg.apache.sqoop.splitter.allow_text_splitter=true \
--connect jdbc:mysql://10.22.133.144:2883/prdb \
--username yjx_dml \
--password 'test#123' \
--driver com.oceanbase.jdbc.Driver \
--fields-termin