weixin_43418390-优快云博客

转载 Spark中Shuffle的前世今生

1.Shuffle的变迁Spark 0.8及以前 Hash Based ShuffleSpark 0.8.1 为Hash Based Shuffle引入File Consolidation机制Spark 0.9 引入ExternalAppendOnlyMapSpark 1.1 引入Sort Based Shuffle，但默认仍为Hash Based ShuffleSpark 1.2 默认的Shuffle方式改为Sort Based ShuffleSpark 1.4 引入Tungsten-Sort

2020-09-17 22:55:28 383

原创 MapReduce运行流程详解

在MapReduce运行过程中，在上层主要有四个主体：客户端：提交MR任务JobTracker：协调作业的运行，主类为JobTrackerTastTracker：运行作用划分后的任务，主类为TastTracker共享文件系统：在其他实体之间共享文件，一般为HDFSMR工作机制1.提交作业：客户端启动一个Job；并向JobTracker请求一个作业ID，JobTracker检查作业输出（有没有指定输出路径、输出目录是否已存在）计算作业的输出切片；JobTracker会返回一个作业ID和资源的提

2020-09-13 20:40:30 309

原创 Sqoop基础指令

Sqoop简介Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。如果要用Sqoop，必须正确安装并配置Hadoop，因依赖于本地的Hadoop环境启动MR程序；MySQL、Orac

2020-09-11 22:48:22 311

原创 Namenode知识点梳理

namenode的作用名字节点主要用来保存HDFS的元数据信息，比如命名空间信息，块信息。可以分为文件系统目录树管理：1.对文件/目录的元信息和文件的数据块索引管理（主要通过INode、Feature、FSEditLog、FSImage等相关类进行管理）2.对数据块和数据节点进行管理。namenode的高可用(HA)实现namenode的HA主要包括主备切换、共享日志存储。1.在集群中存在多个namenode，他们均处于active或standby状态。2.共享日志存储：active nameno

2020-09-10 17:20:01 985

原创 HDFS读写流程梳理

HDFS读写流程hdfs的读写主要设计Client、NameNode、DataNode等节点HDHS客户端进行文件读操作流程1.打开HDFS文件，构造DFSInputStream输入流HDFS客户端调用DistributesFileSystem.open()方法打开HDFS文件，其底层实际上是调用ClientPropocol.open()方法，返回一个HdfsDataInputStream(DFSInputStream的装饰类，真正进行读取操作是DFSInputStream)。2.从NameNo

2020-09-10 14:55:49 476 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人