
Hive
冬瓜螺旋雪碧
时间的加速度
展开
-
Shell 获取Hive表的location 信息
shell 自动获取hive建表语句信息原创 2024-06-26 11:23:13 · 397 阅读 · 0 评论 -
hive 中lateral view 和 explode使用案例
0.函数说明EXPLODE(col):将 hive 一列中复杂的 array 或者 map 结构拆分成多行。LATERAL VIEW用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias解释:用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view 使用案例:源数据结构如下:movie category原创 2020-07-23 15:09:27 · 1007 阅读 · 0 评论 -
Hive生产中常用的一些操作
一,Create Table1,拷贝表结构,不拷贝表数据create table newTable like oldTable;2,Create Table As Select (CTAS)create table newTable as select * from table二,Alter Table1,修改表名Alter Table oldTable rename to ne...原创 2019-07-18 15:06:05 · 201 阅读 · 0 评论 -
Hive的复杂数据类型操作
Hive数据类型这里介绍 Array,Map,Struct。个人理解看来联系Java当中的相对应的数据类型学习会更容易理解。一,Array(存放的数据类型)①准备好一些数据,第一步建表和导入数据,注意这里建表和普通的建表稍微有些许的不同create table hive_array(name string,city_info array<string>)row format d...原创 2019-07-23 17:49:20 · 900 阅读 · 2 评论 -
Hive解析Json,URL操作
在实际开发当中json 很常见的类型,hive处理json字符串成为目标的宽表。从json ===》 hive table ===》sql一,解析json先介绍下用到的hive 内置函数 json_tuple执行:desc function [extended] json_tuple;显示:json_tuple(jsonStr, p1, p2, ..., pn) like get_js...原创 2019-07-22 17:38:27 · 645 阅读 · 0 评论 -
Hive 求Top N
之前面试就碰到过hive求top n操作,当时回答简单的排序就OK,现在一回想简直可笑。这里用到hive,分析性函数,ROW_NUMBER总共有rank,row_number,dense_rank等,但是Row_number用的频率最高,这里这介绍Row_number语法:row_number() OVER (partition by COL1 order by COL2 desc ) r...原创 2019-07-22 19:05:21 · 937 阅读 · 0 评论 -
将CSV,TXT文件数据导入到kudu(hive)
记一次将三十万条数据的CSV文件导入到生产环境的kudu数据库中因为是生产环境,自己也是小心翼翼,进行实践操作。思路还是简单的0,开始工作前,先将文件复制出来,保存为.txt文件,且用制表符作为分隔。1,先将文件上传到集群环境中,放在某个目录下。这里我放在/home2,将文件数据导入到hive中,建hive表create table kzw_mk_test( device_id...原创 2019-04-01 13:19:51 · 2263 阅读 · 3 评论 -
SpringBoot+Nginx+MapReduce+Flume+HDFS+Hive的ETL项目
本项目目的:通过模仿用flume采集nginx的日志进行用mapreduce进行etl操作一 搭建好nginx[root@itdragon ~]# wget http://nginx.org/download/nginx-1.16.1.tar.gz[root@itdragon ~]# tar -zxvf nginx-1.16.1.tar.gz[root@itdragon ~]# llto...原创 2019-09-19 18:26:30 · 1156 阅读 · 0 评论 -
Hive Sql练习小记
接上一篇etl 项目MR离线etl项目,宽表数据进行业务分析面试中写sql 应该是最常见且必不可少的了,所以加强SQL练习很有必要。需求一:统计每个用户的累计访问量原表:domain time traffic(T)gifshow.com 2019/01/01 5yy.com 2019/01/01 4huya.com ...原创 2019-09-20 19:04:16 · 249 阅读 · 0 评论