
hive
文章平均质量分 54
randee_luo
爱学习的坏同学
展开
-
hive数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2013-10-11 14:36:41 · 577 阅读 · 0 评论 -
hive优化
hive.optimize.cp=true:列裁剪 hive.optimize.prunner:分区裁剪 hive.limit.optimize.enable=true:优化LIMIT n语句 hive.limit.row.max.size=1000000: hive.limit.optimize.limit.file=10:最大文件数1. 本地模式(小任务): 需转载 2013-12-26 12:00:35 · 577 阅读 · 0 评论 -
Hive – Group By 的实现
准备数据hive> SELECT * FROM logs;a 苹果 5a 橙子 3a 苹果 2b 烧鸡 1 hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;a 10b 1计算过程默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结转载 2013-12-25 14:24:55 · 1211 阅读 · 0 评论 -
hive 0.10 0.11新增特性综述
我们的hive版本升迁经历了0.7.1 -> 0.8.1 -> 0.9.0,并且线上shark所依赖的hive版本也停留在0.9.0上,在这些版本上有我们自己的bug fix patch和feature enhancement。但是Hive的版本升级很快,新版本中修复了大量bug,新增了很多功能,非常令人兴奋,其中包括对未来hadoop升级为YARN的支持。所以我们准备将hive版本升级为0.11转载 2014-01-08 15:05:10 · 771 阅读 · 0 评论 -
hive中的order by+sort by+distribute by+cluster by
order by 它会对输出数据做全局排序,因此在order by 过程中会将所有数据放入一个reduce(如果是多个reduce的话则不能保证order by 后数据是有序的),当数据量大时,一个reduce的处理压力就成了问题。当 set hive.mapred.mode=nonstrict (默认值)时,hive会正常处理order by 。当 set hive.mapred.原创 2013-12-25 11:39:32 · 1167 阅读 · 0 评论 -
left outer join 的简单总结
表:lhc01id uid3 12 11 14 11 23 2表:lhc02id uid1 24 12 1一,基本left outer joinselect * from lhc01 a left outer原创 2013-12-10 15:27:57 · 4694 阅读 · 0 评论 -
解决mongodb启动时报locale错误以及linux终端或hive CLI无法输入中文的方法
在安装完mongodb后,进入$MONGODB_HOME/bin 执行mongod启动时报exception in initAndListen: 14043 clear tmp files caught exception exception: locale::facet::_S_create_c_locale name not valid, terminating从error信息可原创 2013-12-02 15:43:13 · 1609 阅读 · 0 评论 -
SQOOP 解决import时字段为NULL值的情况
想必有些朋友刚开始接触sqoop时,在从mysql(或者别的RDBMS)导入数据到hdfs后会发现原来在mysql中字段值明明是NULL, 为什么到hive查询后 where field is null 会没有结果呢,然后通过检查一看 居然NULL值都变成了字段串'null'。其实你在导入的时候加上以下两个参数就可以解决了,--null-string '\\N' --null-non原创 2013-11-21 10:38:10 · 8571 阅读 · 2 评论 -
mongoDB的导出工具mongoexport
据了解当前mongoDB支持将数据导成两种形式,一是json 二是csv可以通过./mongoexport --help 来查看参数介绍-h [ --host ] arg 连接的ip地址--port arg 端口号-u [ --username ] arg 用户名-p [ --password ] arg 密码-d [ --db原创 2013-10-29 16:02:24 · 1871 阅读 · 0 评论 -
升级hive-0.11后报java.lang.InstantiationException: org.antlr.runtime.CommonToke
今天早上一到公司就发现有个数据有问题,以为是原始数据出问题了,后来查看作业日志,发现以下情况java.lang.InstantiationException: org.antlr.runtime.CommonTokenContinuing ...java.lang.RuntimeException: failed to evaluate: =Class.new();Continui原创 2013-10-22 15:02:33 · 2229 阅读 · 7 评论 -
解决升级hive-0.11.0后报WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no long
在将hive升级至0.11.0版本后,每次重新进入hive都会报出一WARN,很似烦人,内容如下:WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect. Make sure to provide a valid value for hive.met原创 2013-10-21 11:54:50 · 3602 阅读 · 0 评论 -
hive的升级(0.8.0到0.11.0)
hive-0.11.0出来后,得知有将row_number进行封装,对于我这等不懂java的人士来说,是莫大的幸福啊!毫不犹豫的将0.8.0抛弃了!下面是具体升级步骤:1,关闭当前hive正在执行的进程,service hive-server以及相应的客户端(网上有些作者说要做的,其实这一步我倒没做,也没出现啥状况,为了责任,建议大家还是操作一下)。2,不管做哪方面的升级,首先肯定是将原创 2013-10-18 17:22:33 · 764 阅读 · 0 评论 -
处理hive中;分号字符
分号是sql的结束符,在hql中亦如此,但是hive对分号的识别没有那么智能,如下:select concat(';','aa') from lhc limit 1;FAILED: Parse Error: line 1:13 cannot recognize input near '' '' '' in function specification可见,hql只要遇见分号则认识是原创 2013-10-16 17:54:12 · 4707 阅读 · 0 评论 -
Hive RCFile的高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据转载 2013-10-14 18:10:58 · 900 阅读 · 0 评论 -
Hadoop中map数的计算
Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.bl转载 2014-01-23 11:42:26 · 709 阅读 · 0 评论