
hive
文章平均质量分 88
AmazingJadeWu
Github:https://github.com/amazingWu
开源中国:https://git.oschina.net/WU_QI
展开
-
Hive的UDF、UDAF、UDTF
本篇文章详细讲解UDF、UDAF、UDTF的使用及注意事项,下章将会讲解在UDF的基础之上使用Hive 2.1中transform接口。Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用原创 2017-05-20 10:25:04 · 2324 阅读 · 0 评论 -
Hive DDL详解
OverViewHiveQL DDL statements are documented here, including: CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEXDROP DATABASE/SCHEMA, TABLE, VIEW, INDEX TRUNCATE TABLE ALTER DATABASE/SCH...原创 2018-03-30 12:05:37 · 2036 阅读 · 0 评论 -
Hive Join的实现原理
JOINhive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成一个reduce,否则将被翻译成多个map-reduce任务。如: hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成一个reduce,否则将被翻译成多个map-reduce任务。 eg: SELECT a.val, b.va原创 2018-03-31 13:03:24 · 12617 阅读 · 7 评论 -
Hive Group By的实现原理
group by多字段select rank, isonline, count(*) from city group by rank, isonline;将GroupBy的字段组合为map的输出key值,利用MapReduce的排序,在reduce阶段保存LastKey区分不同的key。MapReduce的过程如下(当然这里只是说明Reduce端的非Hash聚合过程)group...原创 2018-04-09 15:13:18 · 6351 阅读 · 1 评论 -
Hive order by、sort by、distribute by
ORDER BYHive中的ORDER By和其他的SQL中的定义时一样的,用于对查询结果进行一个统一的排序。在Hive中,该语句会将所有的数据都通过一个reducer进行处理,对于大数据集会是一个瓶颈。Hive中的order by语句有一些限制,在strict模式下(hive.mapred.mode=strict),order by语句后面需要跟上limit 语句,原因在于order b...原创 2018-04-13 15:58:19 · 697 阅读 · 0 评论