大家来一起学-优快云博客

原创 Spark面试题（一）

1、spark的有几种部署模式，每种模式特点？（☆☆☆☆☆）1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类 local：只启动一个executor local[k]:启动k个executor local[*]：启动跟cpu数目相同的 executor2）standalone模式分布式部署集群，自带完整的服务，资源管理和任务监控是Spark自己监控，这个模

2021-03-16 10:38:55 590

转载 MapReduce Input Split（输入分/切片）详解--比较容易理解

转自：https://blog.youkuaiyun.com/Dr_Guo/article/details/51150278看了很多博客，感觉没有一个说的很清楚，所以我来整理一下。先看一下这个图输入分片（Input Split）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组...

2021-03-16 09:30:48 1004

原创 Hadoop面试题总结（三）——MapReduce

1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?1）序列化和反序列化（1）序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。（2）反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。（3）Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己

2021-03-16 09:21:51 257

转载 idea 远程调试sparck scala

idea 远程调试sparck scala一、添加远程同步目录(或者叫远程映射)这里是远程目录显示和我们集群上是一样的=============================================================================二、远程spark scala调试1.打好包2.扔到映射目录下3.集群启动监听在master /usr/local/src/spark-2.0.2-bin-hado

2021-01-16 10:34:15 989

原创 HDFS必知必会

HDFS系统架构HDFS由3个组件组成 NameNodeMaster SecondaryNameNodeMaster DataNodeWorker NameNode 管理着文件系统命名空间维护者文件系统树及树中的所有文件和目录存储元数据文件名目录名及他们之间的层级关系文件目录的所有者及其权限每个文件块的名及文件有哪些块组成元数据保存在内存中 NameN...

2020-12-10 23:15:55 205 1

原创 MapReduce进阶

MapReduce采用的多进程模型（spark采用多线程模型，代价高并发时资源竞争会造成资源管理负责，所以没有MapReduce性能稳定）使用进程的好处独立的进程空间，方便资源调配和管理代价进程比线程相对消耗更多的启动时间当一个记录被截断进2个block时，该行记录属于上一个block的split。大部分情况下split和block大小一致 File：文件要存储在HDFS中，每个文件切分成多个一定大小（默认64M）的Block（默认3个备份）存储在多...

2020-12-10 23:14:00 170 1

原创 MapReduce基础知识

MapReduce处理海量数据的技术（分布式计算框架，离线，高吞吐高延时）划分方法--最基本的海量技术思想传统Hash，最基本的划分方法如何将大数据、流量均分到N台服务器找到合理的key,hash(key)尽量分布均匀随机划分一致性Hash：支持动态增长，更高级的划分方法目的是解决分布式缓存的问题。在移除或者添加一个服务器时，能够尽可能小地改变已存在的服务请求与处理请求服务器之间的映射关系。一致性哈希解决了简单哈希算...

2020-12-10 23:11:32 219 1

转载【环境安装】Flink

0. 软件版本下载http://mirror.bit.edu.cn/apache/flink/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/flink/flink-1.4.2/flink-1.4.2-bin-hadoop26-scala_2.11.tgztar zxvf flink-1.4

2020-11-30 17:35:08 490

原创开课前环境准备

CentOS服务器安装参数配置注意事项Tips：根据自己本机的情况来定，配置高虚拟机就多给些，前提是别耽误本机的运行使用vmware workstation 安装三台虚拟机（linux系统）服务器内存磁盘图形界面化 master 2G或以上 40G或以上必须，如果已经安装最小的，安装xmanager用于转接到本机图形界面，无须卸载重装 slave1 1G或以上同上可最小化，可图形界面话，根据本机配置自行决定 slave2

2020-11-30 17:19:22 154

转载【环境安装】Spark2.4.4

0. Spark源码包下载mirror.bit.edu.cn/apache/spark/1. 集群环境Master 172.16.71.10Slave1 172.16.71.11Slave2 172.16.71.122. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.6.tgztar zxvf spark-2.4.4-bin-hadoop

2020-11-30 17:18:11 810 1

转载【环境安装】Flume

0. 软件版本下载http://mirror.bit.edu.cn/apache/flume/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gztar zxvf apache-flume-1.6.0-bin.ta

2020-11-30 15:16:25 162

转载【环境安装】scala安装

0.scala包下载https://www.scala-lang.org/1.集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992.下载解压wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgztar -zxvf scala-2.11.12.tgz3.添加到环境变量vim ~/.bashrcexport SCAL

2020-11-30 13:39:30 172

转载【环境安装】Kafka

0. Kafka源码包下载https://www.apache.org/dyn/closer.cgi?path=/kafka1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget https://www.apache.org/dyn/closer.cgi?path=/kafka/2.6.0/kafka_2.13-2.6.0.tgztar zxvf kafka_2.13-2.6

2020-11-28 11:31:44 128

转载【环境安装】Zookeeper

0. zookeeper源码包下载http://mirror.bit.edu.cn/apache/zookeeper/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gztar zxvf zook

2020-11-28 10:45:16 129

转载【环境安装】Hive2.x

0. Hive源码包下载http://mirror.bit.edu.cn/apache/hive/1. 下载软件包wget http://mirror.bit.edu.cn/apache/hive/hive-2.3.3/apache-hive-2.3.3-bin.tar.gztar zxvf apache-hive-2.3.3-bin.tar.gz2. 创建HDFS目录hadoop fs -mkdir -p /data/hive/warehouse hadoop fs -mkdir

2020-11-27 23:48:06 233

转载【环境安装】hadoop2.x 集群安装

0. Hadoop源码包下载http://mirror.bit.edu.cn/apache/hadoop/common1. 集群环境Master xxx.xxx.xxx.xxxSlave1 xxx.xxx.xxx.xxxSlave2 xxx.xxx.xxx.xxxvim /etc/hosts 里追加2. 下载安装包#Masterwget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.6.5/had..

2020-11-27 23:32:10 229

rakuphone的博客