
Hive
顾国玉
这个作者很懒,什么都没留下…
展开
-
Hive部署
1 Hive概括在部署之前,我们先要了解什么是Hive,我们打开官网:http://hive.apache.org/1.Hive数据仓库软件可以通过SQL可以很方便的对存储在分布式仓库的大数据进行读、写、管理。解决海量结构化数据的统计问题,可以通过命令行以及JDBC的方式去访问Hive2.Hive是构建在Hadoop之上的数据仓库,适合做离线处理3.Hive是客户端,不是一个集群,主要是...原创 2019-08-06 15:11:45 · 403 阅读 · 0 评论 -
Hive、MySQL、Sqoop求TOP N
文章目录一 数据说明二 分析三 Sqoop3.1 什么是Sqoop3.2 Sqoop部署3.3 Sqoop简单应用3.4 Sqoop import HDFS3.5 Sqoop import Hive一 数据说明目前我们有三张表1.位于MySQL的city_info表, product_info表2.位于Hive的user_click表城市信息表city_info ,字段说明如下:ci...原创 2019-08-13 22:56:44 · 353 阅读 · 0 评论 -
Hive DDL DML 内置函数 wc统计
文章目录一 创建表1.1 create...like...1.2 Create Table As Select二 修改表三 删除表3.1 Drop Table3.2 Truncate Table四 内部表和外部表五 Load导入表数据六 聚合函数七 case when八 order by、sort by、distribute by、cluster by8.1 order by8.2 sort by...原创 2019-08-09 15:51:06 · 453 阅读 · 0 评论 -
json导入Hive,并整理成大宽表
文章目录1 创建表2 导入Hive3 json_tuple查询数据4 整理成大宽表首先我们有如下图的json数据,我们需要把这份数据先导入到Hive,然后在整理成结构化的数据,这样我们就可以根据需求查询对应的数据了1 创建表首先先要创建一个表create table rating(json string);2 导入Hive然后把数据导入到hive中load data local ...原创 2019-08-10 11:58:04 · 2229 阅读 · 0 评论 -
Hive函数 复杂函数
1 解析url假如有下面的url'http://www.facebook.com/user/login.html?username=root&password=123456'我们要获取到里面的host,path,query,username,可以使用hive的函数parse_url_tupleselect parse_url_tuple('http://www.facebook...原创 2019-08-10 22:05:47 · 1640 阅读 · 0 评论 -
Hive分区表
在web项目中,谁在什么时候,做了什么事,都需要用日志存储用mysql存储日志数据时,logs越来越大,性能会越来越差,通常会进行分表存储,例如logs_20190101, logs_20190102在Hive中通常用分区表partition进行数据的拆分,但是在hive中是一张表,只是不同的分区,在不同的目录下面一、一级分区例如有如下数据,我们需要把此数据导入到hive的一个分区表中...原创 2019-08-11 15:43:07 · 696 阅读 · 1 评论 -
hive自定义函数后,编译源码,并解决数据倾斜
一 下载源码首先进入网站:http://archive.cloudera.com/cdh5/cdh/5/然后搜索hive-1.1.0-cdh5.15.1-src二 自定义函数2.1 添加随机数前缀函数解压之后,可以用idea打开工程,然后在目录hive-1.1.0-cdh5.15.1/ql/src/java/org/apache/hadoop/hive/ql/udf下新建一个类UDFA...原创 2019-10-09 20:34:49 · 467 阅读 · 0 评论