
Hive
文章平均质量分 80
layne_liang
这个作者很懒,什么都没留下…
展开
-
Hive 数据倾斜总结
转载:http://blog.youkuaiyun.com/lovingprince/article/details/7264549几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值转载 2015-07-22 14:18:54 · 372 阅读 · 0 评论 -
Hive常用优化参数
常用调优测试语句 : ①显示当前hive环境的参数值:set 参数名;如: ②设置hive当前环境的参数值,但仅对本次连接有效set 参数名 = 值;如:hive job优化1、并行优化hive job的并行化执行,在job之间没有依赖关系时可以同时执行,并行数另外配置,默认为8,开启并行会消耗更原创 2015-07-22 09:55:17 · 4774 阅读 · 0 评论 -
hive 数据导入的四种方法
问题导读1.从本地文件系统中通过什么命令可导入数据到Hive表?2.什么是动态分区插入?3.该如何实现动态分区插入?扩展:这里可以和Hive中的三种不同的数据导出方式介绍进行对比?Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中转载 2015-08-17 09:38:47 · 809 阅读 · 0 评论 -
Hive自定义UDAF详解
Hive自定义UDAF详解 遇到一个Hive需求:有A、B、C三列,按A列进行聚合,求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成,但是比较繁琐,会解析成几个MR进行执行,如果自定义UDAF便可只利用一个MR完成任务。 所用Hive为0.13.1版本。UDAF有两种,第一种是比较简单的形式转载 2015-08-17 09:42:44 · 1403 阅读 · 0 评论 -
hive 使用udf函数实现数据导入到mysql
利用hive内置的hive-contrib 来实现udf导入mysql,同时还需要mysql驱动包例子:add jar /usr/local/hive-0.13.1b/hive-contrib-0.13.1.jar;add jar /usr/local/hive-0.13.1b/mysql-connector-java-5.1.32-bin.jar;create tem原创 2015-08-17 09:54:04 · 1294 阅读 · 0 评论 -
Hive元数据解析
转自 : http://www.2cto.com/database/201311/255627.htmlHive元数据解析Hive元数据解析 本文是笔者初步整理的Hive元数据表,有不准确的地方请轻拍,后续我会补充.1. Hive 0.11 元数据表汇总线上Hive 0.11 metastore包括下述39个表,主要分为以下几类 :转载 2015-08-17 09:40:21 · 631 阅读 · 0 评论