- 博客(21)
- 收藏
- 关注
原创 hadoop HA异常:Unable to start failover controller. Parent znode does not exist.
在namenode上执行./hadoop-daemon.sh start zkfc时,发现zkfc进程未启动,且报出如下错误:很明显,是由于Zookeeper上不存在namenode的临时节点。解决方法:1、登录Zookeeper,执行./zkCli.sh进入Zookeeper终端,执行如下命令:ls /结果发现,果然没有hadoop-ha节点。2、登录namenode节点,并执行...
2019-12-03 14:43:49
2823
原创 hadoop distcp踩坑记
distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。1、在nn1上执行hadoop distcp hdfs://source-nn1:9000/user/xxx.txt hdfs://dest-nn1:9000/...
2019-10-22 18:24:55
6842
1
原创 spark运行example时遇到的问题
运行spark自带的demo:1、提交到clientbin/spark-submit --master spark://ip:7077 --class org.apache.spark.examples.SparkPi --executor-memory 2g lib/spark-examples-1.6.0-hadoop2.6.0.jarspark报错如下:Exception ...
2019-10-22 14:46:03
1183
原创 namenode启动异常问题解决
HA集群配置完成并启动后,namenode不能正常启动。刚启动的时候 jps看到了namenode,但是隔了一两分钟,再看namenode就不见了。如果不启动journalnode,namenode运行正常,一旦启动journalnode,则namenode过一会就会挂掉。查看namenode日志,发现报错如下:2019-10-18 15:32:36,835 INFO org.apache....
2019-10-21 14:59:57
5620
3
原创 FATAL: Spool Directory source source: { spoolDir: /home/work/local/log }: Uncaught exception in
flume报错如下:28 Apr 2019 15:08:59,663 ERROR [pool-5-thread-1] (org.apache.flume.source.SpoolDirectoryExtSource2$SpoolDirectoryRunnable.run:277) - FATAL: Spool Directory source source1: { spoolDir: /h...
2019-04-29 11:07:20
3493
原创 spark算子:combineByKey详解
combineByKey是Spark中一个比较核心的高级函数, groupByKey、reduceByKey的底层都是使用combineByKey实现的,所以需要弄清楚它。def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) =>...
2018-10-19 16:12:51
854
原创 java.lang.NoSuchMethodError: scala.runtime.ObjectRef.create(Ljava/lang/Object;)Lscala/runtime/Object
在使用spark进行开发时,本地运行成功,但是上传到集群发生如下错误:java.lang.NoSuchMethodError: scala.runtime.ObjectRef.create(Ljava/lang/Object;)Lscala/runtime/ObjectRef;此问题是由于本地编译时用到的scala版本和Spark集群所用Scala版本不一致导致的,可以通过修改本地sca...
2018-10-08 19:55:37
2685
原创 Could not deallocate container for task attemptId attempt_1527460471557_511564_r_000000_0
hive任务执行出错,map和reduce进程一直为0%查看log日志发现,报错如下:Could not deallocate container for task attemptId attempt_XXX从字面意思可知,是因为没有给任务分配container,在创建容器的过程中出错了。通过查阅资料发现,主要是以下两个原因:(1)nodemanager内存不够;(2)yarn...
2018-09-26 20:11:50
3736
转载 JVM讲解和调优
一、什么是JVM JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。 Java语言的一个非常重要的特点就是与平台的无关性。而使用Java虚拟机是实现这一特点的关键。一般的高级语言如果要在不同的平台上运行,至少需要编译成不同的目标代码。而引入Ja...
2018-05-12 20:17:15
451
转载 Mysql常用30种SQL查询语句优化方法
1、应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。2、对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。3、应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is...
2018-05-08 20:19:09
222
原创 Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the
启用hive时报以下错误:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path解决方法:[work@hadoop1 ~]$ cd ~/hive/conf/[work@hadoop1 ~]$ cp hive-env.sh.template hi...
2018-03-14 19:38:27
4761
原创 ip地址的long和String类型转换
public class ipToLong { /* public static long ipTolong(String strIp) { String[] ip = strIp.split("\\."); return (Long.parseLong(ip[0]) } */ // 将127.0.0.
2018-02-05 15:10:01
1810
转载 Hive设置map和reduce的个数
一、控制hive任务中的map数:通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);
2017-12-08 18:51:58
22065
转载 Hive Runtime Error while processing row
最近执行Hive任务时遇到如下错误:java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) {“key”:{“reducesinkkey0”:”00.26.37.E3.07.D3”,”reducesinkk
2017-11-21 21:13:17
20821
转载 数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。
2017-11-15 14:32:45
618
原创 Cannot obtain block length for LocatedBlock故障分析与解决
在执行hive任务的时候经常会遇到如下错误: 上层任务执行失败,导致后续任务积压,因此必须解决该问题。
2017-11-13 13:17:44
4451
1
原创 hadoop fsck命令详解
HDFS健康的标准:如果所有的文件满足最小副本的要求,那么就认为文件系统是健康的。 (HDFS is considered healthy if—and only if—all files have a minimum number of replicas available)检查HDFS的健康情况:hadoop提供了fsck tool来对整个文件系统或者单独的文件、目录来进行健康状态的检查。
2017-11-10 19:36:46
5667
转载 MapReduce shuffle过程剖析及调优
MapReduce简介在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。
2017-11-07 13:43:22
393
转载 Kafka背景及架构介绍
本文介绍了Kafka的创建背景,设计目标,使用消息系统的优势以及目前流行的消息系统对比。并介绍了Kafka的架构,Producer消息路由,Consumer Group以及由其实现的不同消息分发方式,Topic & Partition,最后介绍了Kafka Consumer为何使用pull模式以及Kafka提供的三种delivery guarantee。
2017-11-03 16:49:43
419
转载 Spark Streaming获取kafka数据的两种方式
Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业务场景,只关注Spark Streaming读取Kafka数据的方式。
2017-11-03 13:44:16
5675
转载 Hive SQL的编译过程
转载自:http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能
2017-11-01 16:31:52
323
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人