木_头人-优快云博客

原创 Spark内存管理

1.Spark 内存介绍在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 Spark 作业（Job），并将作业转化为计算任务（Task），在各个 Executor 进程间协调任务的调度，后者负责在工作节点上执行具体的计算任务，并将结果返回给 Driver，同时为需要持久化的 RDD...

2019-12-31 09:36:31 283

原创 Spark shuffle及宽窄依赖

Spark shuffle 发展ShuffleManager发展概述负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager，也即shuffle管理器。在Spark1.2以前，默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端，就是会产生大量的中间磁盘文...

2019-12-31 09:08:40 681

原创 Spark 运行模式

1.Spark运行模式分类Spark常用运行模式 local yarn-client yarn-cluster standalone-client standalone-cluster 本地模式 Spark单机运行，一般用于开发测试。 Standalone模式构建一个由Master+Slave构成的Spark集群，Spa...

2019-12-30 11:16:30 416

原创 kafka介绍、安装及基本使用

1.介绍A distrubuted streaming platform一个分布式流平台发布 & 订阅: 类似于⼀一个消息系统，读写流式的数据.publish & subscribe read and write streams of data like messaging system处理理: 编写可扩展的流处理理应⽤用程序，⽤用于实时事件响应的场景。process ...

2019-10-20 22:51:35 246

转载 Spark性能优化指南——高级篇

转载 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行...

2019-10-16 14:46:26 301

原创 spark history-server

1.前提每一个SparkContext都会启动一个网页UI，当我们完成spark作业或者任务异常终止之后，这个网页的UI就不可用了，如何在任务结束后仍然能看到我们的任务等相关信息，这时候就需要history-server。2.配置编辑spark-defaults.conf配置文件spark.eventLog.enabled truespark.eventLog.dir...

2019-10-09 15:40:58 423

原创 hadoop支持lzo且支持分片

1.执行命令安装一些依赖组件[root@hadoop001 ~]# yum -y install lzo-devel zlib-devel gcc autoconf automake libtool2. 下载lzo的源码包并解压[hadoop@hadoop001 software]$ wget http://www.oberhumer.com/opensource/lzo/downl...

2019-09-29 21:58:08 210

原创 IDEA运行spark报java.lang.reflect.InvocationTargetException

在IDEA运行Spark碰到报错19/9/25 17:15:44 ERROR MetricsSystem: Sink class org.apache.spark.metrics.sink.MetricsServlet cannot be instantiated19/9/25 17:15:44 ERROR SparkContext: Error initializing SparkConte...

2019-09-27 15:20:20 2363 1

原创自定义函数并注册到hive 源码中

1.首先下载hive的源码包http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.15.1-src.tar.gz2.编写一个UDF 名字叫 AddPrefixUDF.javapackage com.ruozedata.bigdata.hive.udf;import org.apache.hadoop.hive.ql.exec.UD...

2019-09-25 17:51:39 195

原创 Spark RDD算子

1.TransformationsmapReturn a new RDD by applying a function to all elements of this RDD.scala> val rdd = sc.parallelize(List(1,2,3,4,5))rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollecti...

2019-09-25 14:22:34 216

原创 Spark RDD

RDD介绍RDD全称resilient distributed dataset（弹性分布式数据集）。他是一个弹性分布式数据集，是spark里面抽象的概念。代表的是一个不可变的，集合里面的元素可以分区的支持并行化的操作。RDD五大特性及对应的方法1）A list of partitions 一系列的partition protected def getPartitions: Arr...

2019-09-25 10:36:10 181

原创 Spark源码编译安装

1.安装环境软件准备spark-2.4.4.tgz源码jdk-8u144-linux-x64.tar.gz JDK1.8以上 apache-maven-3.3.9-bin.tar.gzscala-2.11.8.tgzhadoop-2.6.0-cdh5.15.1.tar.gz1.1 安装jdktar -xf jdk-8u144-linux-x64.tar.gz -C /us...

2019-09-24 21:10:22 228

原创 Flume自定义Sink、Source

1.Flume Channel Selectorsflume channel selectors允许给一个source可以配置多个channel的能力。这种模式有两种方式，一种是用来复制（Replication），另一种是用来分流（Multiplexing）。...

2019-09-24 09:58:34 446

原创 Flume案例

需求：定义一个采集文件夹的数据并存放到HDFS上的Flume分析：Source spooldirChannel fileSink HDFS#agent1表示代理名称，一台服务器上的代理名称最好不同agent1.sources=source1 #source的名称为source1agent1.sin...

2019-09-23 15:51:42 199

原创 Flume概述

1.Flume介绍Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on stre...

2019-09-23 15:24:27 204

原创初识scala（四）

1.模式匹配匹配内容 val a=Array("A","B","C") val name= a(Random.nextInt(a.length))// println(name) name match { case "A" =>println("a") case "B" =>println("b") case _ ...

2019-09-23 14:11:41 145

原创初识scala（三）

1.函数Map函数Map中的元素主要是映射用的，一个值进去，一个值出来scala> val c=Array(1,2,3,4,5)c: Array[Int] = Array(1, 2, 3, 4, 5)scala> c.map((x:Int)=> x*2)res17: Array[Int] = Array(2, 4, 6, 8, 10)scala> c.ma...

2019-09-16 15:21:54 161

原创初识scala（二）

1.循环、判断if(条件){ // 如果为 true 则执行}if(条件){ // 如果为 true 则执行}else{ // 如果为 true 则执行}if(条件1){ // 如果为 true 则执行}else if(条件2){ // 如果为 true 则执行}else if(条件3){ // 如果为 true 则执行}else {...

2019-09-12 17:58:22 172

原创初识scala

1.变量变量：var |var a=10 等价于var a:Int =10常量：val |val b=20 等价于var b:Int =20 默认值： scala> var a:Int=_ a: Int = 0 scala> var a:Double=_ a: Double = 0.0 scala> var a:Stri...

2019-09-11 13:45:33 221

原创 IDEA提交job到Yarn

IDEA提交到Yarn可能会出现一系列问题，只要添加一些参数就可以解决package com.ruozedata.bigdata.hadoop.mapreduce.wc;import com.ruozedata.bigdata.hadoop.utils.FileUtils;import org.apache.hadoop.conf.Configuration;import org.apa...

2019-09-09 17:20:39 503

原创 Curator API操作

为什么选择Curator APIZooKeeper原生Java API的不足之处：在连接zk超时的时候，不支持自动重连，需要手动操作Watch注册一次就会失效，需要反复注册不支持递归创建节点Apache curator：Apache 的开源项目解决Watch注册一次就会失效的问题提供的 API 更加简单易用提供更多解决方案并且实现简单，例如：分布式锁提供常用的ZooKeepe...

2019-09-09 16:27:50 484

原创 zookeeper简介

1.介绍zookeeper是一个分布式服务框架，用于维护配置信息、命名、提供分布式同步和提供组服务。它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。2.特性ZK的数据模型：树形结构ZK每个节点znode，有一个唯一的路径标识znode类型：PERSISTENT-持久化目录节点、PERSISTENT_SEQUEN...

2019-09-09 14:44:58 229

原创 mr求TOPN

需求：求一个文件中金额前三的数据分析：首先实现序列化，重写cpmpareto方法，再根据TOPN再reduce中实现求TOPN的文件：AA,5BB,10CC,20DD,20EE,15package com.ruozedata.bigdata.hadoop.mapreduce.TopN;import com.ruozedata.bigdata.hadoop.utils.File...

2019-09-09 11:20:56 517

原创 ArrayList 详解

1.介绍ArrayList是一个基于数组的集合实现，可以进行对元素的增删改查，可以动态的进行扩容。ArrayList并不是线程安全，所以效率比较高。2.ArrayList 源码 public ArrayList(int initialCapacity) { //如果参数大于0，则创建一个initialCapacity大小的object数组 if (initi...

2019-09-09 11:04:20 270

原创 mr实现join

需求：展示部门员工的员工编号、员工姓名、部门编号、部门名称。分析：，部门表跟员工表都有一个相同的字段，部门编号。可以根据部门编号进行jion操作，再将所属表的信息进行一个标识（flag）。map中根据文件名判断当前行数据所属的数据，并设置对应的flag值在reduce中根据根据关联字段进行join处理部门表：10 ACCOUNTING NEWYORK20 RESEARCH ...

2019-09-09 09:57:37 334

原创 hadoop相关问题

1.hadoop中的InputSplit是什么？如果分配一个Mapper给块1，在这种情况下，Mapper不能处理第二条记录，因为块1中没有完整第二条记录。因为HDFS不知道文件块中的内容，它不知道记录会什么时候可能溢出到另一个块（because HDFS has no conception of what’s inside the file blocks, it can’t gauge whe...

2019-09-05 17:31:17 515

原创 Windows版IDEA连接云主机问题

问题一：java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/FileDescriptor; at org.apache.hadoop.io.nativeio.NativeIO$Wind...

2019-09-05 16:54:25 334

原创 WordCount经典案例及源码分析

package com.ruozedata.bigdata.hadoop.mapreduce.wc;import com.ruozedata.bigdata.hadoop.utils.FileUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apach...

2019-09-05 16:29:36 609

原创 HDFS API的使用

使用HDFS API之前，需要在我们项目的pom.xml文件添加关于hadoop的依赖。<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2019-09-05 14:54:05 256

原创 Windows 10 安装IDEA跟MAVEN

IDEA下载网址：https://www.jetbrains.com/idea/download/#section=windowsMAVEN下载网址：http://maven.apache.org/docs/history.html开始安装IDEA基本只要点击下一步下一步就可以了。需要注意的有几点1.修改一下安装目录，2.勾选一下以下选项。至此，IDEA就安装完成。我们讲解下如何配...

2019-09-05 14:31:18 391

原创 ssh zk集群无法启动

使用start_cluster.sh启动服务[hadoop@ruozedata001 shell]$ sh start_cluster.sh JMX enabled by defaultUsing config: /home/hadoop/app/zookeeper/bin/../conf/zoo.cfgStarting zookeeper ... STARTEDJMX enabled ...

2019-08-24 13:40:12 424

原创 HDFS脚本检测failover时，发送邮件预警

首先看以下脚本所执行的内容#!/bin/bash#定义空变量NN1_HOSTNAME=""NN2_HOSTNAME=""NN1_SERVICEID=""NN2_SERVICEID=""NN1_SERVICESTATE=""NN2_SERVICESTATE=""#设置需要发送邮件的邮箱EMAIL=1124009143@qq.com #配置hadoop命令的目录CD...

2019-08-24 13:39:53 260

原创使用qq邮箱发送邮件

1.开启qq邮箱SMTP跟获取授权码首先打开qq邮箱，点击设置—》再点击账户—》往下拉，可以看到“POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务”，里面有开启对应的服务。点击生成授权码就可以。2.开启服务开启postfix服务之前，需要关闭sendmail服务并修改配置文件内容service sendmail stopchkconfig sendmai...

2019-08-23 17:48:36 1110

原创 shell

1.shell介绍通常，shell脚本以.sh结尾作为标识。脚本的开头都会写#!/bin/bash这一串表示使用bash解释器来解释这个脚本内容。一般执行脚本可以通过./xxx.sh或者sh xxx.sh的方式来执行shell脚本，前者需要给shell脚本添加执行权限，后者不需要。可以通过添加参数x来进行调试脚本，会显示脚本执行的每一条命令。以下面为例：[hadoop@hadoop001 sh...

2019-08-22 22:23:31 291

原创断电导致HDFS服务不正常或者显示块损坏

1.现象:断电导致HDFS服务不正常或者显示块损坏2.检查HDFS系统文件健康hdfs fsck /3.检查hdfs fsck -list-corruptfileblocks显示损坏的文件对应的块Connecting to namenode via http://hadoop36:50070/fsck?ugi=hdfs&listcorruptfileblocks=1&...

2019-08-20 16:13:02 538

原创 hdfs常见命令

haadmin介绍hdfs haadmin命令可以查看、修改集群某一台服务器的状态[hadoop@hadoop001 ~]$ hdfs haadminUsage: DFSHAAdmin [-ns <nameserviceId>] [-transitionToActive <serviceId> [--forceactive]] [-transition...

2019-08-20 15:55:23 222

原创 Hadoop 集群部署

1.需要的软件2.安装3.测试

2019-08-19 21:24:29 179

原创 Hadoop HA架构

1.HDFS HA 架构1.1首先我们需要准备最起码三台机器做HDFS的高可用ruozedata001: ZK(zookeeper) NN(namenode) zkfc(zookeeperFailoverControl) jn(JournalNode) DN(datanode) ruozedata002: ZK(zookeeper) NN(namenode) zkfc(zookeeper...

2019-08-18 15:00:15 338

原创 sqoop搭建及使用

1.搭建sqoop下载关于sqoop的包，以hadoop解压到对应的目录配置环境变量export SQOOP_HOME=/home/hadoop/app/sqoopexport PATH=${SQOOP_HOME}/bin:$PATH修改配置文件，需要先拷贝一份模板文件，只需要修改hadoop跟hive的路径就可以[hadoop@hadoop001 conf]$ cp sqoop-en...

2019-07-23 20:53:54 287

原创 HIVE的分区

在Hive中处理数据时，当处理的一张表的数据量过大的时候，每次查询都是遍历整张表，显然对于计算机来说，是负担比较重的。所以我们可不可以针对数据进行分类，查询时只遍历该分类中的数据，这样就能有效的解决问题。所以就会Hive在表的架构下，就会有分区的这个概念，就是为了满足此需求。分区表的一个分区对应hdfs上的一个目录分区表包括静态分区表和动态分区表，根据分区会不会自动创建来区分多级分区表，即创...

2019-07-22 16:59:29 508

空空如也

空空如也