Hive
whiteblacksheep
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive的分区表整理
1.分区表的介绍在Hive中处理数据时,当处理的一张表的数据量过大的时候,每次查询都是遍历整张表,显然对于计算机来说,是负担比较重的。所以我们可不可以针对数据进行分类,查询时只遍历该分类中的数据,这样就能有效的解决问题。所以就会Hive在表的架构下,就会有分区的这个概念,就是为了满足此需求。分区表的一个分区对应hdfs上的一个目录。分区表包括静态分区表和动态分区表,根据分区会不会自动创建来区...原创 2019-07-23 15:53:48 · 837 阅读 · 0 评论 -
Hive的查询语句整理
select查询hive (default)> > select * from emp;OKemp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno7839 KING PRESIDENT ...原创 2019-07-19 17:47:47 · 716 阅读 · 0 评论 -
Hive - DDL 和DML整理
1. 相关说明DDL=Date Definition Language,数据定义语言。学习hive的HQL的DDL相关语法,建议对照官方WIKI,因为语法参数较多,而且和SQL多有相似,不建议记忆,梳理一下,记住相关可以实现的功能和注意点以及和SQL之间的区别即可。2.基本数据类型和分隔符Hive基本数据类型:stringintbigintfloatdoubleboolean...原创 2019-07-19 14:18:44 · 200 阅读 · 0 评论 -
hive的安装和部署
hive的产生背景MR来开发业务逻辑:繁琐、痛苦Hive:facebook 解决海量的结构化日志的统计问题刚开始时是作为Hadoop项目的一个子项目的,后面才单独成为一个项目Hive是构建在Hadoop之上的数据仓库 适合处理离线Hive是一个客户端,不是一个集群,把SQL提交到Hadoop集群上去运行Hive是一个类SQL的框架, HQL和SQL没有任何关系,只是类似Hive...原创 2019-07-16 15:05:28 · 222 阅读 · 0 评论 -
hive内置常用函数补充和举例
json_tuple函数的作用:用来解析json字符串中的多个字段hive (default)> create table rating_json(json string); >load data local inpath '/home/hadoop/data/rating.json' overwrite into table rating_json; //导入数据 hive...原创 2019-07-21 15:00:02 · 274 阅读 · 0 评论 -
hive_topN
hive中的窗口分析函数hive中的窗口分析函数:RANKROW_NUMBERDENSE_RANKCUME_DISTPERCENT_RANKNTILE但一般用的最多的还是ROW_NUMBER。用法 COUNT(DISTINCT a) OVER (PARTITION BY c)例如:在linux本地目录创建一个文件/home/hadoop/data/hive_row_number....原创 2019-07-21 15:55:40 · 334 阅读 · 0 评论 -
hive_beeline和hiveserver2的使用
beeline和hiveserver2beeline和HS2(hiveserver2)的架构是C-S架构,如果想要用beeline作为与hive的交换工具,必须在hive中启动hiveserver2服务原创 2019-07-21 17:00:13 · 368 阅读 · 0 评论 -
hive的复杂数据类型
hive的复杂数据类型:Array(1,2,3,4) 装的数据类型是一样的Map(‘a’,1,‘b’,c) key的类型一样Struct(‘a’,1,2,34,4)装的数据是完全混乱的Array数据类型1.存放创建一张存放array数据类型的表[hadoop@hadoop001 data]$ cat hive_array.txt zhangsan beijing...原创 2019-07-22 10:49:37 · 1325 阅读 · 0 评论
分享