自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 Spark内存管理

1.Spark 内存介绍在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给 Driver,同时为需要持久化的 RDD...

2019-12-31 09:36:31 283

原创 Spark shuffle及宽窄依赖

Spark shuffle 发展ShuffleManager发展概述 负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager,也即shuffle管理器。 在Spark1.2以前,默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端,就是会产生大量的中间磁盘文...

2019-12-31 09:08:40 681

原创 Spark 运行模式

1.Spark运行模式分类Spark常用运行模式 local yarn-client yarn-cluster standalone-client standalone-cluster 本地模式 Spark单机运行,一般用于开发测试。 Standalone模式 构建一个由Master+Slave构成的Spark集群,Spa...

2019-12-30 11:16:30 416

原创 kafka介绍、安装及基本使用

1.介绍A distrubuted streaming platform一个分布式流平台发布 & 订阅: 类似于⼀一个消息系统,读写流式的数据.publish & subscribe read and write streams of data like messaging system处理理: 编写可扩展的流处理理应⽤用程序,⽤用于实时事件响应的场景。process ...

2019-10-20 22:51:35 246

转载 Spark性能优化指南——高级篇

转载 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行...

2019-10-16 14:46:26 301

原创 spark history-server

1.前提每一个SparkContext都会启动一个网页UI,当我们完成spark作业或者任务异常终止之后,这个网页的UI就不可用了,如何在任务结束后仍然能看到我们的任务等相关信息,这时候就需要history-server。2.配置编辑spark-defaults.conf配置文件spark.eventLog.enabled truespark.eventLog.dir...

2019-10-09 15:40:58 423

原创 hadoop支持lzo且支持分片

1.执行命令安装一些依赖组件[root@hadoop001 ~]# yum -y install lzo-devel zlib-devel gcc autoconf automake libtool2. 下载lzo的源码包并解压[hadoop@hadoop001 software]$ wget http://www.oberhumer.com/opensource/lzo/downl...

2019-09-29 21:58:08 210

原创 IDEA运行spark报java.lang.reflect.InvocationTargetException

在IDEA运行Spark碰到报错19/9/25 17:15:44 ERROR MetricsSystem: Sink class org.apache.spark.metrics.sink.MetricsServlet cannot be instantiated19/9/25 17:15:44 ERROR SparkContext: Error initializing SparkConte...

2019-09-27 15:20:20 2363 1

原创 自定义函数并注册到hive 源码中

1.首先下载hive的源码包http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.15.1-src.tar.gz2.编写一个UDF 名字叫 AddPrefixUDF.javapackage com.ruozedata.bigdata.hive.udf;import org.apache.hadoop.hive.ql.exec.UD...

2019-09-25 17:51:39 195

原创 Spark RDD算子

1.TransformationsmapReturn a new RDD by applying a function to all elements of this RDD.scala> val rdd = sc.parallelize(List(1,2,3,4,5))rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollecti...

2019-09-25 14:22:34 216

原创 Spark RDD

RDD介绍RDD全称resilient distributed dataset(弹性分布式数据集)。他是一个弹性分布式数据集,是spark里面抽象的概念。代表的是一个不可变的,集合里面的元素可以分区的支持并行化的操作。RDD五大特性及对应的方法1)A list of partitions 一系列的partition protected def getPartitions: Arr...

2019-09-25 10:36:10 181

原创 Spark源码编译安装

1.安装环境软件准备spark-2.4.4.tgz源码jdk-8u144-linux-x64.tar.gz JDK1.8以上 apache-maven-3.3.9-bin.tar.gzscala-2.11.8.tgzhadoop-2.6.0-cdh5.15.1.tar.gz1.1 安装jdktar -xf jdk-8u144-linux-x64.tar.gz -C /us...

2019-09-24 21:10:22 228

原创 Flume自定义Sink、Source

1.Flume Channel Selectorsflume channel selectors允许给一个source可以配置多个channel的能力。这种模式有两种方式,一种是用来复制(Replication),另一种是用来分流(Multiplexing)。...

2019-09-24 09:58:34 446

原创 Flume案例

需求:定义一个采集文件夹的数据并存放到HDFS上的Flume分析:Source spooldirChannel fileSink HDFS#agent1表示代理名称,一台服务器上的代理名称最好不同agent1.sources=source1 #source的名称为source1agent1.sin...

2019-09-23 15:51:42 199

原创 Flume概述

1.Flume介绍Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on stre...

2019-09-23 15:24:27 204

原创 初识scala(四)

1.模式匹配匹配内容 val a=Array("A","B","C") val name= a(Random.nextInt(a.length))// println(name) name match { case "A" =>println("a") case "B" =>println("b") case _ ...

2019-09-23 14:11:41 145

原创 初识scala(三)

1.函数Map函数Map中的元素主要是映射用的,一个值进去,一个值出来scala> val c=Array(1,2,3,4,5)c: Array[Int] = Array(1, 2, 3, 4, 5)scala> c.map((x:Int)=> x*2)res17: Array[Int] = Array(2, 4, 6, 8, 10)scala> c.ma...

2019-09-16 15:21:54 161

原创 初识scala(二)

1.循环、判断if(条件){ // 如果为 true 则执行}if(条件){ // 如果为 true 则执行}else{ // 如果为 true 则执行}if(条件1){ // 如果为 true 则执行}else if(条件2){ // 如果为 true 则执行}else if(条件3){ // 如果为 true 则执行}else {...

2019-09-12 17:58:22 172

原创 初识scala

1.变量变量:var |var a=10 等价于var a:Int =10常量:val |val b=20 等价于var b:Int =20 默认值: scala> var a:Int=_ a: Int = 0 scala> var a:Double=_ a: Double = 0.0 scala> var a:Stri...

2019-09-11 13:45:33 221

原创 IDEA提交job到Yarn

IDEA提交到Yarn可能会出现一系列问题,只要添加一些参数就可以解决package com.ruozedata.bigdata.hadoop.mapreduce.wc;import com.ruozedata.bigdata.hadoop.utils.FileUtils;import org.apache.hadoop.conf.Configuration;import org.apa...

2019-09-09 17:20:39 503

原创 Curator API操作

为什么选择Curator APIZooKeeper原生Java API的不足之处:在连接zk超时的时候,不支持自动重连,需要手动操作Watch注册一次就会失效,需要反复注册不支持递归创建节点Apache curator:Apache 的开源项目解决Watch注册一次就会失效的问题提供的 API 更加简单易用提供更多解决方案并且实现简单,例如:分布式锁提供常用的ZooKeepe...

2019-09-09 16:27:50 484

原创 zookeeper简介

1.介绍zookeeper是一个分布式服务框架,用于维护配置信息、命名、提供分布式同步和提供组服务。它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。2.特性ZK的数据模型: 树形结构ZK每个节点znode,有一个唯一的路径标识znode类型:PERSISTENT-持久化目录节点、PERSISTENT_SEQUEN...

2019-09-09 14:44:58 229

原创 mr求TOPN

需求:求一个文件中金额前三的数据分析:首先实现序列化,重写cpmpareto方法,再根据TOPN再reduce中实现求TOPN的文件:AA,5BB,10CC,20DD,20EE,15package com.ruozedata.bigdata.hadoop.mapreduce.TopN;import com.ruozedata.bigdata.hadoop.utils.File...

2019-09-09 11:20:56 517

原创 ArrayList 详解

1.介绍ArrayList是一个基于数组的集合实现,可以进行对元素的增删改查,可以动态的进行扩容。ArrayList并不是线程安全,所以效率比较高。2.ArrayList 源码 public ArrayList(int initialCapacity) { //如果参数大于0,则创建一个initialCapacity大小的object数组 if (initi...

2019-09-09 11:04:20 270

原创 mr实现join

需求:展示部门员工的员工编号、员工姓名、部门编号、部门名称。分析:,部门表跟员工表都有一个相同的字段,部门编号。可以根据部门编号进行jion操作,再将所属表的信息进行一个标识(flag)。map中根据文件名判断当前行数据所属的数据,并设置对应的flag值在reduce中根据根据关联字段进行join处理部门表:10 ACCOUNTING NEWYORK20 RESEARCH ...

2019-09-09 09:57:37 334

原创 hadoop相关问题

1.hadoop中的InputSplit是什么?如果分配一个Mapper给块1,在这种情况下,Mapper不能处理第二条记录,因为块1中没有完整第二条记录。因为HDFS不知道文件块中的内容,它不知道记录会什么时候可能溢出到另一个块(because HDFS has no conception of what’s inside the file blocks, it can’t gauge whe...

2019-09-05 17:31:17 515

原创 Windows版IDEA连接云主机问题

问题一:java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/FileDescriptor; at org.apache.hadoop.io.nativeio.NativeIO$Wind...

2019-09-05 16:54:25 334

原创 WordCount经典案例及源码分析

package com.ruozedata.bigdata.hadoop.mapreduce.wc;import com.ruozedata.bigdata.hadoop.utils.FileUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apach...

2019-09-05 16:29:36 609

原创 HDFS API的使用

使用HDFS API之前,需要在我们项目的pom.xml文件添加关于hadoop的依赖。<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2019-09-05 14:54:05 256

原创 Windows 10 安装IDEA跟MAVEN

IDEA下载网址:https://www.jetbrains.com/idea/download/#section=windowsMAVEN下载网址:http://maven.apache.org/docs/history.html开始安装IDEA基本只要点击下一步下一步就可以了。需要注意的有几点1.修改一下安装目录,2.勾选一下以下选项。至此,IDEA就安装完成。我们讲解下如何配...

2019-09-05 14:31:18 391

原创 ssh zk集群无法启动

使用start_cluster.sh启动服务[hadoop@ruozedata001 shell]$ sh start_cluster.sh JMX enabled by defaultUsing config: /home/hadoop/app/zookeeper/bin/../conf/zoo.cfgStarting zookeeper ... STARTEDJMX enabled ...

2019-08-24 13:40:12 424

原创 HDFS脚本检测failover时,发送邮件预警

首先看以下脚本所执行的内容#!/bin/bash#定义空变量NN1_HOSTNAME=""NN2_HOSTNAME=""NN1_SERVICEID=""NN2_SERVICEID=""NN1_SERVICESTATE=""NN2_SERVICESTATE=""#设置需要发送邮件的邮箱EMAIL=1124009143@qq.com #配置hadoop命令的目录CD...

2019-08-24 13:39:53 260

原创 使用qq邮箱发送邮件

1.开启qq邮箱SMTP跟获取授权码首先打开qq邮箱,点击设置—》再点击账户—》往下拉,可以看到“POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务”,里面有开启对应的服务。点击生成授权码就可以。2.开启服务开启postfix服务之前,需要关闭sendmail服务并修改配置文件内容service sendmail stopchkconfig sendmai...

2019-08-23 17:48:36 1110

原创 shell

1.shell介绍通常,shell脚本以.sh结尾作为标识。脚本的开头都会写#!/bin/bash这一串表示使用bash解释器来解释这个脚本内容。一般执行脚本可以通过./xxx.sh或者sh xxx.sh的方式来执行shell脚本,前者需要给shell脚本添加执行权限,后者不需要。可以通过添加参数x来进行调试脚本,会显示脚本执行的每一条命令。以下面为例:[hadoop@hadoop001 sh...

2019-08-22 22:23:31 291

原创 断电导致HDFS服务不正常或者显示块损坏

1.现象:断电 导致HDFS服务不正常或者显示块损坏2.检查HDFS系统文件健康hdfs fsck /3.检查hdfs fsck -list-corruptfileblocks显示损坏的文件对应的块Connecting to namenode via http://hadoop36:50070/fsck?ugi=hdfs&listcorruptfileblocks=1&...

2019-08-20 16:13:02 538

原创 hdfs常见命令

haadmin介绍hdfs haadmin命令可以查看、修改集群某一台服务器的状态[hadoop@hadoop001 ~]$ hdfs haadminUsage: DFSHAAdmin [-ns <nameserviceId>] [-transitionToActive <serviceId> [--forceactive]] [-transition...

2019-08-20 15:55:23 222

原创 Hadoop 集群部署

1.需要的软件2.安装3.测试

2019-08-19 21:24:29 179

原创 Hadoop HA架构

1.HDFS HA 架构1.1首先我们需要准备最起码三台机器做HDFS的高可用ruozedata001: ZK(zookeeper) NN(namenode) zkfc(zookeeperFailoverControl) jn(JournalNode) DN(datanode) ruozedata002: ZK(zookeeper) NN(namenode) zkfc(zookeeper...

2019-08-18 15:00:15 338

原创 sqoop搭建及使用

1.搭建sqoop下载关于sqoop的包,以hadoop解压到对应的目录配置环境变量export SQOOP_HOME=/home/hadoop/app/sqoopexport PATH=${SQOOP_HOME}/bin:$PATH修改配置文件,需要先拷贝一份模板文件,只需要修改hadoop跟hive的路径就可以[hadoop@hadoop001 conf]$ cp sqoop-en...

2019-07-23 20:53:54 287

原创 HIVE的分区

在Hive中处理数据时,当处理的一张表的数据量过大的时候,每次查询都是遍历整张表,显然对于计算机来说,是负担比较重的。所以我们可不可以针对数据进行分类,查询时只遍历该分类中的数据,这样就能有效的解决问题。所以就会Hive在表的架构下,就会有分区的这个概念,就是为了满足此需求。分区表的一个分区对应hdfs上的一个目录分区表包括静态分区表和动态分区表,根据分区会不会自动创建来区分多级分区表,即创...

2019-07-22 16:59:29 508

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除