念雅小轩-优快云博客

原创 hadoop HA异常：Unable to start failover controller. Parent znode does not exist.

在namenode上执行./hadoop-daemon.sh start zkfc时，发现zkfc进程未启动，且报出如下错误：很明显，是由于Zookeeper上不存在namenode的临时节点。解决方法：1、登录Zookeeper，执行./zkCli.sh进入Zookeeper终端，执行如下命令：ls /结果发现，果然没有hadoop-ha节点。2、登录namenode节点，并执行...

2019-12-03 14:43:49 2933

原创 hadoop distcp踩坑记

distcp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。1、在nn1上执行hadoop distcp hdfs://source-nn1:9000/user/xxx.txt hdfs://dest-nn1:9000/...

2019-10-22 18:24:55 7036 1

原创 spark运行example时遇到的问题

运行spark自带的demo：1、提交到clientbin/spark-submit --master spark://ip:7077 --class org.apache.spark.examples.SparkPi --executor-memory 2g lib/spark-examples-1.6.0-hadoop2.6.0.jarspark报错如下：Exception ...

2019-10-22 14:46:03 1248

HA集群配置完成并启动后，namenode不能正常启动。刚启动的时候 jps看到了namenode，但是隔了一两分钟，再看namenode就不见了。如果不启动journalnode，namenode运行正常，一旦启动journalnode，则namenode过一会就会挂掉。查看namenode日志，发现报错如下：2019-10-18 15:32:36,835 INFO org.apache....

2019-10-21 14:59:57 5737 3

原创 FATAL: Spool Directory source source: { spoolDir: /home/work/local/log }: Uncaught exception in

flume报错如下：28 Apr 2019 15:08:59,663 ERROR [pool-5-thread-1] (org.apache.flume.source.SpoolDirectoryExtSource2$SpoolDirectoryRunnable.run:277) - FATAL: Spool Directory source source1: { spoolDir: /h...

2019-04-29 11:07:20 3553

原创 spark算子：combineByKey详解

combineByKey是Spark中一个比较核心的高级函数， groupByKey、reduceByKey的底层都是使用combineByKey实现的，所以需要弄清楚它。def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) =&gt...

2018-10-19 16:12:51 908

原创 java.lang.NoSuchMethodError: scala.runtime.ObjectRef.create(Ljava/lang/Object;)Lscala/runtime/Object

在使用spark进行开发时，本地运行成功，但是上传到集群发生如下错误：java.lang.NoSuchMethodError: scala.runtime.ObjectRef.create(Ljava/lang/Object;)Lscala/runtime/ObjectRef;此问题是由于本地编译时用到的scala版本和Spark集群所用Scala版本不一致导致的，可以通过修改本地sca...

2018-10-08 19:55:37 2740

原创 Could not deallocate container for task attemptId attempt_1527460471557_511564_r_000000_0

hive任务执行出错，map和reduce进程一直为0%查看log日志发现，报错如下：Could not deallocate container for task attemptId attempt_XXX从字面意思可知，是因为没有给任务分配container，在创建容器的过程中出错了。通过查阅资料发现，主要是以下两个原因：（1）nodemanager内存不够；（2）yarn...

2018-09-26 20:11:50 3824

转载 JVM讲解和调优

一、什么是JVM JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。 Java语言的一个非常重要的特点就是与平台的无关性。而使用Java虚拟机是实现这一特点的关键。一般的高级语言如果要在不同的平台上运行，至少需要编译成不同的目标代码。而引入Ja...

2018-05-12 20:17:15 501

转载 Mysql常用30种SQL查询语句优化方法

1、应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。2、对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。3、应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where num is...

2018-05-08 20:19:09 255

原创 Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the

启用hive时报以下错误：Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path解决方法：[work@hadoop1 ~]$ cd ~/hive/conf/[work@hadoop1 ~]$ cp hive-env.sh.template hi...

2018-03-14 19:38:27 4876

原创 ip地址的long和String类型转换

public class ipToLong { /* public static long ipTolong(String strIp) { String[] ip = strIp.split("\\."); return (Long.parseLong(ip[0]) } */ // 将127.0.0.

2018-02-05 15:10:01 1858

转载 Hive设置map和reduce的个数

一、控制hive任务中的map数:通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；

2017-12-08 18:51:58 22314

转载 Hive Runtime Error while processing row

最近执行Hive任务时遇到如下错误：java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) {“key”:{“reducesinkkey0”:”00.26.37.E3.07.D3”,”reducesinkk

2017-11-21 21:13:17 21111

转载数据倾斜

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。

2017-11-15 14:32:45 741

原创 Cannot obtain block length for LocatedBlock故障分析与解决

在执行hive任务的时候经常会遇到如下错误：上层任务执行失败，导致后续任务积压，因此必须解决该问题。

2017-11-13 13:17:44 4572 1

原创 hadoop fsck命令详解

HDFS健康的标准：如果所有的文件满足最小副本的要求，那么就认为文件系统是健康的。（HDFS is considered healthy if—and only if—all files have a minimum number of replicas available）检查HDFS的健康情况：hadoop提供了fsck tool来对整个文件系统或者单独的文件、目录来进行健康状态的检查。

2017-11-10 19:36:46 5943

转载 MapReduce shuffle过程剖析及调优

MapReduce简介在Hadoop MapReduce中，框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收，是一个很复杂的过程，框架处理了所有问题，并提供了很多配置项及扩展点。

2017-11-07 13:43:22 435

转载 Kafka背景及架构介绍

本文介绍了Kafka的创建背景，设计目标，使用消息系统的优势以及目前流行的消息系统对比。并介绍了Kafka的架构，Producer消息路由，Consumer Group以及由其实现的不同消息分发方式，Topic & Partition，最后介绍了Kafka Consumer为何使用pull模式以及Kafka提供的三种delivery guarantee。

2017-11-03 16:49:43 465

转载 Spark Streaming获取kafka数据的两种方式

Spark Streaming 支持多种实时输入源数据的读取，其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源，由于我们的业务场景没有涉及，在此将不会讨论。本篇文章主要着眼于我们目前的业务场景，只关注Spark Streaming读取Kafka数据的方式。

2017-11-03 13:44:16 5755

转载 Hive SQL的编译过程

转载自：http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能

2017-11-01 16:31:52 359

B11050101的博客