hive作为数仓,各个层次的存储格式

这篇博客介绍了Hive在数据仓库中的应用,特别是ODS层的数据处理。通过Sqoop从MySQL导入数据到HDFS,并创建使用Snappy压缩的Parquet表。此外,还讨论了日志数据的存储,使用了LZO压缩的文本格式。DWD和DWS层则选择了Parquet格式,而ADS层由于 Sqoop 导出限制,采用默认的textfile格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

hive作为数仓,分为 1、业务数据的数仓,来源于mysql
2、用户行为数仓(日志),来源于采集系
hive :
ods层:用sqoop将mysql的数据导入到hdfs
创建Snappy压缩格式的Parquet结构的表
drop table if exists ods_order_info;
create table ods_order_info (
id string COMMENT ‘订单编号’,
total_amount decimal(10,2) COMMENT ‘订单金额’,
order_status string COMMENT ‘订单状态’,

) COMMENT ‘订单表’
PARTITIONED BY ( dt string)
row format delimited fields terminated by ‘\t’
location ‘/warehouse/gmall/ods/ods_order_info/’
tblproperties (“parquet.compression”=“snappy”)
日志:
drop table if exists ods_start_log;
CREATE EXTERNAL TABLE ods_start_log(line string)
PARTITIONED BY (dt string)
STORED AS
INPUTFORMAT ‘com.hadoop.mapred.DeprecatedLzoTextInputFormat’
OUTPUTFORMAT 'org.apache.ha

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值