每日定时导入hive数据仓库的自动化脚本

最新推荐文章于 2024-05-04 17:37:22 发布

转载最新推荐文章于 2024-05-04 17:37:22 发布 · 1.7k 阅读

文章标签：

#hive #定时

大数据hive 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一个用于每日定时将数据导入Hive数据仓库的Shell脚本。该脚本能够创建临时表并从本地文件系统加载数据，然后转换到正式的分区表中。此外，还介绍了如何设置crontab定时任务来自动执行此脚本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

每日定时导入hive数据仓库的自动化脚本

创建shell脚本，创建临时表，装载数据，转换到正式的分区表中：

[plain]view plaincopy
#!/bin/sh  
# upload logs to hdfs  
  
yesterday=`date --date='1 days ago' +%Y%m%d`  
  
hive -e "  
use stage;  
create table tracklog_tmp (  
dateday string,  
datetime string,  
ip string ,  
cookieid string,  
userid string,  
logserverip string,  
referer string,  
requesturl string,  
remark1 string,  
remark2 string,  
alexaflag string,  
ua string,  
wirelessflag string  
)  
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ';"  
  
  
hive -e "  
use stage;  
set hive.enforce.bucketing=true;  
set hive.exec.compress.output=true;  
set mapred.output.compress=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;  
load data local inpath '/diskg/hexunlogs/tracklog_10.0.251.146/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;  
insert into table tracklog PARTITION (day='${yesterday}')  select  *  from tracklog_tmp;  
load data local inpath '/diskg/hexunlogs/tracklog_10.0.121.74/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;  
insert into table tracklog PARTITION (day='${yesterday}')  select  *  from tracklog_tmp;  
load data local inpath '/diskg/hexunlogs/tracklog_10.0.190.13/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;  
insert into table tracklog PARTITION (day='${yesterday}')  select  *  from tracklog_tmp;  
load data local inpath '/diskg/hexunlogs/trackloguc_10.0.251.146/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;  
insert into table tracklog PARTITION (day='${yesterday}')  select  *  from tracklog_tmp;  
load data local inpath '/diskg/hexunlogs/trackloguc_10.0.121.74/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;  
insert into table tracklog PARTITION (day='${yesterday}')  select  *  from tracklog_tmp;  
load data local inpath '/diskg/hexunlogs/trackloguc_10.0.190.13/${yesterday}/${yesterday}??.dat' overwrite into table tracklog_tmp;  
insert into table tracklog PARTITION (day='${yesterday}')  select  *  from tracklog_tmp;  
"  
  
hive -e "  
use stage;  
drop table tracklog_tmp ;"  
  
hive -e "  
set hive.enforce.bucketing=true;  
set hive.exec.compress.output=true;  
set mapred.output.compress=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;  
insert into table ods.tracklog PARTITION (day='${yesterday}') select  dateday, datetime,ip,cookieid,userid, logserverip,referer,  
requesturl ,remark1,remark2,alexaflag,ua,wirelessflag from stage.tracklog where  day='${yesterday}' and length(datetime)=12 ;"