
大数据
荒野雄兵
这个作者很懒,什么都没留下…
展开
-
Hive报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
Hive报错,主要错误信息:java.sql.SQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask原因分析:Hive sql语句过长,并在sql中调用自己本...原创 2016-11-28 10:27:59 · 27662 阅读 · 2 评论 -
Hadoop警告:WARNING: HADOOP_PREFIX has been replaced by HADOOP_HOME. Using value of HADOOP_PREFIX
问题描述问题分析具体的解决步骤:第一步:把hadoop_prefix变量全部改成hadoop_home,第二步:取消hadoop_prefix变量第三步:使修改后的变量生效第四步:检查改得是否正确:最后问题描述Hadoop3.1.0部署好启动服务的时候发现有下面一警告:WARNING: HADOOP_PREFIX has been replaced b...原创 2018-07-01 22:45:04 · 11955 阅读 · 4 评论 -
Spark核心功能设计详解
前言正文1. 基础设施2. SparkContext3. SparkEnv4. 存储体系5. 调度系统6. 计算引擎前言本文是读耿喜安先生的《Spark内核设计艺术:架构设计与实现》的读书笔记,感觉很重要,很基础,很有价值,特此记录一下正文Spark Core中提供了Spark最基础与最核心的功能,主要包括以下几项:1. 基础设施在S...原创 2018-07-05 07:26:57 · 1930 阅读 · 1 评论 -
Windows下IDEA远程调试Spark Streaming
前言本来半年前就应该发出来了,结果一拖就拖到了现在,真!是!决!定!了!就!要!立!即!去!做!啊! Spark版本:2.1.2 Kafka版本:1.0.0 Linux系统:CentOS6.5 场景: 做Spark Streaming开发,在Win7下使用IDE进行开发,希望在本地IDEA上远程连接服务器上的大数据集群进行调试,这里仅连服务器上的Kafka和Zookeeper服务...原创 2018-07-19 10:16:43 · 2360 阅读 · 0 评论 -
Spark内置RPC框架的基本架构
前言本文是读耿嘉安先生的《Spark内核设计的艺术:架构设计与实现》的读书笔记; 书中代码实现讲得少一些,更多的是对Spark内核架构的分析与解读 书讲得比较深看实在看不去,就一个字一个字地打出来,打完之后再回过头来温习两遍,将书中比较有价值的、重要的东西梳理一下形成此文Spark的RPC框架历史介绍在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件...原创 2018-07-07 18:34:18 · 1082 阅读 · 0 评论 -
zookeeper启动报错:already running as process xxx
启动Zookeeper:bin/zkServer.sh start错误信息:[dong@spark01 zookeeper]# bin/zkServer.sh startJMX enabled by defaultUsing config: /opt/cdh/zookeeper/bin/../conf/zoo.cfgStarting zookeeper ... alrea...原创 2018-08-16 14:34:14 · 12555 阅读 · 5 评论 -
闲话Scala中的Nothing与Null与Nil
Nothing和Null是位于类型系统底层的两个特殊类型, 其中Nothing是所有其他类型的子类,而Null是所有引用类型的子类。Null对于大多数语言而言是熟悉的概念。 尽管这些语言通常并没有定义Null类型,仅仅定义了关键字null, 用于向引用变量赋值,表示该变量实际上没有值。 Null在编译器里的实现相当于以下声明:package scalaabstract final...原创 2018-08-17 10:25:10 · 1126 阅读 · 1 评论 -
Kafka整合Flume
大数据进行流式数据处理的时候Flume采集数据,Kafka消费数据,Spark Streaming处理数据是一种非常常见的架构,这里记录一下Kafka整合Flume的不过,以备后用这里默认已经安装好了Kafka和Flume,不再介绍,大家可以自行去网上找下其实最主要的就是为Flume创建kafka的配置文件kafka-conf.properties:# The configuratio...原创 2018-08-29 14:02:57 · 307 阅读 · 0 评论 -
Linux下Flume安装配置及简单使用
环境说明:操作系统:CentOS6.9 64位解压:tar -xzvf apache-flume-1.7.0-bin.tar.gz创建软链接:ln -s /opt/modules/apache-flume-1.6.0-cdh5.9.3-bin/ /opt/shortcut/flume这里不再添加环境变量修改flume-env.sh配置文件:# 先修改名字mv flume-en...原创 2018-11-26 15:40:44 · 2161 阅读 · 0 评论 -
Spark2.1.2编译支持cdh5.10.2
环境配置值操作系统Centos6.5位数64位JDK1.8.0.65Scala2.12.4Hadoop2.6.0-cdh5.10.2Spark2.1.2第一步:从Spark官网下载Spark源码wget http://mirrors.hust.edu.cn/apache/spark/spark-2.1.2/spark-2.1.2...原创 2018-11-30 19:46:43 · 270 阅读 · 0 评论 -
Hadoop3.1.0 伪分布式环境安装部署
前言刚刚开始学大数据的时候Hadoop最新版还是2.5.0,现在都已经出到3.1.0了,时间好快啊 Hadoop版本:apache-hadoop3.1.0 Linux操作系统:平时工作的时候都是CentOS6,CentOS7, 这将在archLinux系列的manjaro上部署,命令啊,步骤啊什么的都是一样的。 主要是想以后以Manjaro系统作为自己的个人电脑使用,工作得越久越发现自...原创 2018-07-01 14:40:28 · 3880 阅读 · 0 评论 -
Centos6离线安装CDH5.14.2最全详细教程-7浏览器安装ClouderaManager
概述文章写得很详细,很长,所以这里分成了7个部分 这里是第四部分 可以先看下第一部分的概述 Centos6离线安装CDH5.14.2最全详细教程-1前言 这里再强调一下注意事项 1. 所有步骤如无特别说明都是要在所有服务器上都执行一遍 2. 所有的准备工作都要做,不要漏了或者错了,不然后面出现各种问题再改都是轻的,由此引发的其他的问题就严重多了 3. 所有操作均在root用户下进...原创 2018-06-10 22:18:45 · 5090 阅读 · 13 评论 -
Centos安装配置kafka1.0.0
前言Linux系统:Centos6.9kafka版本:1.0.0Scala版本:2.11.8JDK 版本:1.8.0.91下载地址:http://kafka.apache.org/downloads 安装包大约50MB kafka已经忘了装过多少遍了,来一个项目装一次,来一个项目装一次,从0.8一直装 到1.0这里记录一下吧第一步:下载安装包到Linux...原创 2018-04-16 18:28:47 · 979 阅读 · 0 评论 -
精讲Spark Streaming集成读取kafka0.10及以上版本
前言Spark版本:2.1.2 JDK版本:1.8 Scala版本:2.11.8 Linux版本:CentOS6.9 IDEA版本:2017.3 Kafka连接jar包:spark-streaming-kafka-0-10_2.11 (2.1.2) 每次重新搭建环境都或多或少地去网上搜一下,这次终于狠下心把它写出来。 仔细阅读了英文官方文档,又参考了好多博客,花了二天时间才...原创 2018-04-25 20:25:56 · 12316 阅读 · 24 评论 -
Phoenix创建视图映射Hbase中已创建的表
前言准备HBasePhoenix创建视图映射HBase已创建的表前言HBase版本:Version 1.2.0-cdh5.10.2 Phoenix版本:phoenix-4.9 网上翻了好多资料都没有搞定,这里记录一下准备HBase登陆HBase Shellhbase shell在HBase里创建表,命名为USER:# 创建表:cre...原创 2018-05-17 20:28:11 · 10626 阅读 · 4 评论 -
Centos6离线安装CDH5.14.2最全详细教程-1前言
Centos6离线安装CDH5.14.2最全详细教程-1前言概述安装说明安装包准备Centos6离线安装CDH5.14.2最全详细教程-1前言概述公司好多大数据的项目,CDH从5.3.6开始,5.4.10,5.6.1,5.7.2,5.9.3,5.10.2,一直到现在 这次搞个最新版的总结一下 文章写得很详细,很长所以这里分成了7个部分 第一部分:前言 ...原创 2018-06-09 21:23:03 · 5131 阅读 · 0 评论 -
Centos6离线安装CDH5.14.2最全详细教程-2环境准备1
概述文章写得很详细,很长,所以这里分成了7个部分 这里是第二部分, 第一部分:前言 第二部分:环境准备1 第三部分:环境准备2 第四部分:安装Mysql数据库 第五部分:安装Cloudera Manager主服务 第六部分:配置Mysql数据库 第七部分:所有节点安装Cloudera Manager从服务及大数据组件记得先看下第一部分的概述 这里再强调一下注意事项 1....原创 2018-06-09 21:52:14 · 4312 阅读 · 0 评论 -
Centos6离线安装CDH5.14.2最全详细教程-3环境准备2
概述文章写得很详细,很长,所以这里分成了7个部分 这里是第二部分, 第一部分:前言 第二部分:环境准备1 第三部分:环境准备2 第四部分:安装Mysql数据库 第五部分:安装Cloudera Manager主服务 第六部分:配置Mysql数据库 第七部分:所有节点安装Cloudera Manager从服务及大数据组件记得先看下第一部分的概述 这里再强调一下注意事项 1....原创 2018-06-09 22:14:46 · 3488 阅读 · 0 评论 -
Centos6离线安装CDH5.14.2最全详细教程-4数据库
Centos6离线安装CDH5.14.2最全详细教程-4数据库概述安装Mysql配置Mysql开启远程登陆将Mysql驱动包放入Java 共享目录创建数据库及用户并添加权限Centos6离线安装CDH5.14.2最全详细教程-4数据库概述文章写得很详细,很长,所以这里分成了7个部分 这里是第四部分 记得先看下第一部分的概述 Centos6离线安装C...原创 2018-06-10 20:16:47 · 4416 阅读 · 2 评论 -
Centos6离线安装CDH5.14.2最全详细教程-5安装Cloudera Manager
概述文章写得很详细,很长,所以这里分成了7个部分 这里是第二部分, 第一部分:前言 第二部分:环境准备1 第三部分:环境准备2 第四部分:安装Mysql数据库 第五部分:安装Cloudera Manager主服务 第六部分:配置Mysql数据库 第七部分:所有节点安装Cloudera Manager从服务及大数据组件记得先看下第一部分的概述 这里再强调一下注意事项 1....原创 2018-06-10 20:41:46 · 7475 阅读 · 14 评论 -
Centos6离线安装CDH5.14.2最全详细教程-6配置Mysql
概述配置Mysql数据库为Cloudera Manager配置Mysql数据库概述文章写得很详细,很长,所以这里分成了7个部分 这里是第四部分 记得先看下第一部分的概述 Centos6离线安装CDH5.14.2最全详细教程-1前言 这里再强调一下注意事项 1. 所有步骤如无特别说明都是要在所有服务器上都执行一遍 2. 所有的准备工作都要做,不要漏了或者错了...原创 2018-06-10 21:53:12 · 3682 阅读 · 1 评论 -
hbase,hive报错:NoRouteToHostException: No route to host
今天早上打开ClouderaManager集群发现HBase和Hive的服务都报错了,有问题就解决吧 先看下HBase的错误日志, HBase的报错:Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnectjava.net.NoRouteToHos...原创 2018-07-19 17:07:18 · 6029 阅读 · 3 评论