
Hive
hunter127
这个作者很懒,什么都没留下…
展开
-
Hive(一个数据仓库)
一个基于HDFS的数据仓库原创 2016-04-01 09:01:24 · 342 阅读 · 0 评论 -
hive创建压缩分区表
CREATE EXTERNAL TABLE IF NOT EXISTS dilian(dilians STRING,dates STRING,time STRING,t STRING,sip STRING,size STRING,method STRING,url STRING,target STRING,type STRING,uip STRING,原创 2017-09-05 15:13:17 · 937 阅读 · 0 评论 -
hive语句
1.hive 自定义udf或hive自带函数,解析xml。udfinsert overwrite table shenxinfu2 partition(dt='20170711') select xmlpath(s.shenxinfu_result) as url,s.area from shenxfdb.action as s where s.dt='20170711';自带原创 2017-07-20 18:00:03 · 252 阅读 · 0 评论 -
hive建表
create table if not exisit fresh.test(week int,store_nbr int,w_wage float)row format delimited filelds terminated by ','insert into table fresh.test select * from fresh.te原创 2017-01-17 15:02:34 · 300 阅读 · 1 评论 -
Hive动态分区配置
1.动态分区使用:参数配置:set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions=10000;set hive.exec.max.dynamic.partitions.pernode=10000;insert overwrite table test p原创 2017-01-17 14:16:44 · 879 阅读 · 0 评论 -
Hive存储格式
hive存储格式1.textfile2.sequencefile3.rcfile4 orc hive的新格式,rcfile的升级版原创 2016-12-20 12:47:01 · 318 阅读 · 0 评论 -
复制hive表
1. CREATE TABLE new_table LIKE old_table;2. 使用Hadoop fs -cp 命令,把old_table对应的HDFS目录的文件夹全部拷贝到new_table对应的HDFS目录下;3. 使用MSCK REPAIR TABLE new_table;修复新表的分区元数据;原创 2017-01-06 09:40:16 · 249 阅读 · 0 评论 -
impala用parquet格式,hive用orc格式
1.impala用parquet格式,hive用orc格式。Impala不支持orc file,orc file的确很好原创 2017-01-05 22:54:08 · 3618 阅读 · 0 评论 -
HIVE SQL
1.获取当前时间 select from _unixtime(uni_timetamp(),'yyyy-MM-dd HH:mm:ss')原创 2016-12-26 10:30:21 · 287 阅读 · 0 评论 -
Hive分区表
1.增加分区: alter table item add partition (par_dt='2016-12-01') location '/user/test/item/2016-12-01'2.删除分区: alter table item drop partition (par_dt='2016-12-01')3.查看分区:show partition item;原创 2016-12-19 13:01:13 · 249 阅读 · 0 评论 -
ETL过程记录
1.定时ETL得到表名时间=》传入ETL1,ETL1通过sqoop开始去执行每天的计划任务。同时转移把日志重/tmp下,,,转移到工作目录下,,,,然后解析日志得到所有信息。行数什么的,同时在执行sqoop过程中,那张表出现问题就更新执行标志到数据库2.问题2,,要等所有的表同步完才出报表。3.每天的数据会生成临时文件,之后删除,,,,可能使用临时文件去做转换。原创 2016-12-23 12:57:28 · 451 阅读 · 0 评论 -
自动刷新Impale元数据
1.新建invld.sh文件内容为:impala-shell -q "invalidate metadata"2.编辑定时配置,指定每5分钟提交一次命令vi /etc/crontab添加一行:*/5 * * * * root /root/invld-meta/invld-meta.sh3.启动crond服务/sbin/servic原创 2016-12-22 17:50:46 · 643 阅读 · 0 评论 -
Hive ORC file实践与优势
orc file是oc file的进化版。 1.压缩空间会大大减少。 4-7G ===》 100M--500M之间2.查询速度。 1.4T 229s /23s配置15个节点,yarn的内存是839G,内核是840个内存** stored as orc原创 2016-12-22 10:23:12 · 1164 阅读 · 0 评论 -
Hive入门
1.HIve是一个基于Hadoop的数据仓库2.HIve是高延迟的,如果要低延迟用HBase。Hive不能对表数据进行更新、删除、插入,只能追加或重新导入。3.Hive可以建立索引,索引本身就是一张表,索引并不能提高性能,只能减少资源消耗。如果资源充足,不用考虑。4.如果要提高查询速度可以考虑分区与俑。5.hive本身不存储数据与计算。完全依赖于HDFS与Mapreduce,Hiv原创 2016-11-16 21:52:21 · 224 阅读 · 0 评论 -
Hive入门
一 入门了解:1.Hive是基于Hadoop之上的数据仓库。将海量的数据存储到hive做分析处理完成业务逻辑。数据仓库面向数据分析,普通数据库面向快速的读写业务逻辑。2.hive的本质就是一个数据库,由于面向分析,存储在hdfs之上再好不过。二 数据仓库:1.数据仓库是一个面向主题的数据库。例如:要从数据仓库中做一个商品推荐,那么这个主题就是商品。2.多种数据汇总到数据仓库中,原创 2016-09-23 10:41:54 · 365 阅读 · 0 评论 -
Hive工作笔记
1.like得到想要的字段,然后插入分区。insert overwrite table sgv.shenxinfu2 partition(area='gz',dt='${time}') select applog.xmlpath(s.result,"url") as url from shenxfdb.action as swhere s.dt='${time}' and s.area='原创 2017-11-09 15:20:30 · 265 阅读 · 0 评论