
Hive
念雅小轩
这个作者很懒,什么都没留下…
展开
-
Hive SQL的编译过程
转载自:http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能转载 2017-11-01 16:31:52 · 325 阅读 · 0 评论 -
数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。转载 2017-11-15 14:32:45 · 620 阅读 · 0 评论 -
Hive设置map和reduce的个数
一、控制hive任务中的map数:通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);转载 2017-12-08 18:51:58 · 22082 阅读 · 0 评论 -
Hive Runtime Error while processing row
最近执行Hive任务时遇到如下错误:java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) {“key”:{“reducesinkkey0”:”00.26.37.E3.07.D3”,”reducesinkk转载 2017-11-21 21:13:17 · 20843 阅读 · 0 评论 -
Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the
启用hive时报以下错误:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path解决方法:[work@hadoop1 ~]$ cd ~/hive/conf/[work@hadoop1 ~]$ cp hive-env.sh.template hi...原创 2018-03-14 19:38:27 · 4769 阅读 · 0 评论 -
Could not deallocate container for task attemptId attempt_1527460471557_511564_r_000000_0
hive任务执行出错,map和reduce进程一直为0%查看log日志发现,报错如下:Could not deallocate container for task attemptId attempt_XXX从字面意思可知,是因为没有给任务分配container,在创建容器的过程中出错了。通过查阅资料发现,主要是以下两个原因:(1)nodemanager内存不够;(2)yarn...原创 2018-09-26 20:11:50 · 3746 阅读 · 0 评论