- 博客(16)
- 资源 (1)
- 收藏
- 关注
原创 Spark面试题(一)
1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆)1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动k个executor local[*]:启动跟cpu数目相同的 executor2)standalone模式 分布式部署集群,自带完整的服务,资源管理和任务监控是Spark自己监控,这个模
2021-03-16 10:38:55
548
转载 MapReduce Input Split(输入分/切片)详解--比较容易理解
转自:https://blog.youkuaiyun.com/Dr_Guo/article/details/51150278看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。先看一下这个图输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组...
2021-03-16 09:30:48
925
原创 Hadoop面试题总结(三)——MapReduce
1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?1)序列化和反序列化 (1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 (2)反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 (3)Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop自己
2021-03-16 09:21:51
219
转载 idea 远程调试sparck scala
idea 远程调试sparck scala一、添加远程同步目录(或者叫远程映射)这里是远程目录显示和我们集群上是一样的=============================================================================二、远程spark scala调试1.打好包2.扔到映射目录下3.集群启动监听在master /usr/local/src/spark-2.0.2-bin-hado
2021-01-16 10:34:15
933
原创 HDFS必知必会
HDFS系统架构HDFS由3个组件组成 NameNodeMaster SecondaryNameNodeMaster DataNodeWorker NameNode 管理着文件系统命名空间 维护者文件系统树及树中的所有文件和目录 存储元数据 文件名目录名及他们之间的层级关系 文件目录的所有者及其权限 每个文件块的名及文件有哪些块组成 元数据保存在内存中 NameN...
2020-12-10 23:15:55
178
1
原创 MapReduce进阶
MapReduce采用的多进程模型(spark采用多线程模型,代价高并发时资源竞争会造成资源管理负责,所以没有MapReduce性能稳定)使用进程的好处独立的进程空间,方便资源调配和管理代价进程比线程相对消耗更多的启动时间当一个记录被截断进2个block时,该行记录属于上一个block的split。大部分情况下split和block大小一致 File:文件要存储在HDFS中,每个文件切分成多个一定大小(默认64M)的Block(默认3个备份)存储在多...
2020-12-10 23:14:00
139
1
原创 MapReduce基础知识
MapReduce处理海量数据的技术(分布式计算框架,离线,高吞吐高延时)划分方法--最基本的海量技术思想 传统Hash,最基本的划分方法 如何将大数据、流量均分到N台服务器 找到合理的key,hash(key)尽量分布均匀 随机划分 一致性Hash:支持动态增长,更高级的划分方法 目的是解决分布式缓存的问题。在移除或者添加一个服务器时,能够尽可能小地改变已存在的服务请求与处理请求服务器之间的映射关系。一致性哈希解决了简单哈希算...
2020-12-10 23:11:32
182
1
转载 【环境安装】Flink
0. 软件版本下载http://mirror.bit.edu.cn/apache/flink/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/flink/flink-1.4.2/flink-1.4.2-bin-hadoop26-scala_2.11.tgztar zxvf flink-1.4
2020-11-30 17:35:08
459
原创 开课前环境准备
CentOS服务器安装参数配置注意事项Tips:根据自己本机的情况来定,配置高虚拟机就多给些,前提是别耽误本机的运行使用vmware workstation 安装三台虚拟机(linux系统)服务器 内存 磁盘 图形界面化 master 2G或以上 40G或以上 必须,如果已经安装最小的,安装xmanager用于转接到本机图形界面,无须卸载重装 slave1 1G或以上 同上 可最小化,可图形界面话,根据本机配置自行决定 slave2
2020-11-30 17:19:22
127
转载 【环境安装】Spark2.4.4
0. Spark源码包下载mirror.bit.edu.cn/apache/spark/1. 集群环境Master 172.16.71.10Slave1 172.16.71.11Slave2 172.16.71.122. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.6.tgztar zxvf spark-2.4.4-bin-hadoop
2020-11-30 17:18:11
758
1
转载 【环境安装】Flume
0. 软件版本下载http://mirror.bit.edu.cn/apache/flume/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gztar zxvf apache-flume-1.6.0-bin.ta
2020-11-30 15:16:25
141
转载 【环境安装】scala安装
0.scala包下载https://www.scala-lang.org/1.集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992.下载解压wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgztar -zxvf scala-2.11.12.tgz3.添加到环境变量vim ~/.bashrcexport SCAL
2020-11-30 13:39:30
143
转载 【环境安装】Kafka
0. Kafka源码包下载https://www.apache.org/dyn/closer.cgi?path=/kafka1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget https://www.apache.org/dyn/closer.cgi?path=/kafka/2.6.0/kafka_2.13-2.6.0.tgztar zxvf kafka_2.13-2.6
2020-11-28 11:31:44
109
转载 【环境安装】Zookeeper
0. zookeeper源码包下载http://mirror.bit.edu.cn/apache/zookeeper/1. 集群环境Master 172.16.11.97Slave1 172.16.11.98Slave2 172.16.11.992. 下载软件包#Masterwget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gztar zxvf zook
2020-11-28 10:45:16
103
转载 【环境安装】Hive2.x
0. Hive源码包下载http://mirror.bit.edu.cn/apache/hive/1. 下载软件包wget http://mirror.bit.edu.cn/apache/hive/hive-2.3.3/apache-hive-2.3.3-bin.tar.gztar zxvf apache-hive-2.3.3-bin.tar.gz2. 创建HDFS目录hadoop fs -mkdir -p /data/hive/warehouse hadoop fs -mkdir
2020-11-27 23:48:06
202
转载 【环境安装】hadoop2.x 集群安装
0. Hadoop源码包下载http://mirror.bit.edu.cn/apache/hadoop/common1. 集群环境Master xxx.xxx.xxx.xxxSlave1 xxx.xxx.xxx.xxxSlave2 xxx.xxx.xxx.xxxvim /etc/hosts 里追加2. 下载安装包#Masterwget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.6.5/had..
2020-11-27 23:32:10
194
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人