自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 Spark中Shuffle的前世今生

1.Shuffle的变迁Spark 0.8及以前 Hash Based ShuffleSpark 0.8.1 为Hash Based Shuffle引入File Consolidation机制Spark 0.9 引入ExternalAppendOnlyMapSpark 1.1 引入Sort Based Shuffle,但默认仍为Hash Based ShuffleSpark 1.2 默认的Shuffle方式改为Sort Based ShuffleSpark 1.4 引入Tungsten-Sort

2020-09-17 22:55:28 383

原创 MapReduce运行流程详解

在MapReduce运行过程中,在上层主要有四个主体:客户端:提交MR任务JobTracker:协调作业的运行,主类为JobTrackerTastTracker:运行作用划分后的任务,主类为TastTracker共享文件系统:在其他实体之间共享文件,一般为HDFSMR工作机制1.提交作业:客户端启动一个Job;并向JobTracker请求一个作业ID,JobTracker检查作业输出(有没有指定输出路径、输出目录是否已存在)计算作业的输出切片;JobTracker会返回一个作业ID和资源的提

2020-09-13 20:40:30 309

原创 Sqoop基础指令

Sqoop简介Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错率,而且相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况。在特定场景下,抽取过程会有很大的性能提升。如果要用Sqoop,必须正确安装并配置Hadoop,因依赖于本地的Hadoop环境启动MR程序;MySQL、Orac

2020-09-11 22:48:22 311

原创 Namenode知识点梳理

namenode的作用名字节点主要用来保存HDFS的元数据信息,比如命名空间信息,块信息。可以分为文件系统目录树管理:1.对文件/目录的元信息和文件的数据块索引管理(主要通过INode、Feature、FSEditLog、FSImage等相关类进行管理)2.对数据块和数据节点进行管理。namenode的高可用(HA)实现namenode的HA主要包括主备切换、共享日志存储。1.在集群中存在多个namenode,他们均处于active或standby状态。2.共享日志存储:active nameno

2020-09-10 17:20:01 985

原创 HDFS读写流程梳理

HDFS读写流程hdfs的读写主要设计Client、NameNode、DataNode等节点HDHS客户端进行文件读操作流程1.打开HDFS文件,构造DFSInputStream输入流HDFS客户端调用DistributesFileSystem.open()方法打开HDFS文件,其底层实际上是调用ClientPropocol.open()方法,返回一个HdfsDataInputStream(DFSInputStream的装饰类,真正进行读取操作是DFSInputStream)。2.从NameNo

2020-09-10 14:55:49 476 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除