
Hive
就问你吃不吃药
这个作者很懒,什么都没留下…
展开
-
hive分区(partition)简介
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节1、一个表可以拥有一个或者多个分区,转载 2017-10-27 09:45:56 · 531 阅读 · 0 评论 -
Hive自定义UDF函数
1 编写UDF类编写自定义函数需要继承'org.apache.hadoop.hive.ql.exec.UDF'类,可以通过Maven添加,pom文件中加入(版本号和当前Hive一致即可):<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>0.13.1</转载 2017-10-11 09:15:11 · 940 阅读 · 0 评论 -
Hive中数组的使用
基本操作创建文本$>cat test.txt输入文本数据12,23,23,34 what,are,this34,45,34,23,12 who,am,i,are打开Hive,创建表hive> create table t_afan_test > ( > info1 array<int>, > info2 array<string> > )转载 2017-10-25 22:59:35 · 40860 阅读 · 0 评论 -
Hive用户自定义聚合函数(UDAF)
用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。 问题:UDF也可以提供输入多个参数然后输出一个结果的运算,比如加法运算add(3,5),add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么?Double evaluate(Double a, Double b)1.什么是UDAFUDF只能实现一进一转载 2017-10-26 16:32:59 · 828 阅读 · 0 评论