galaargl-优快云博客

原创 YARN的工作机制

ResourceManager：它是master上的进程，负责管理和调度。处理来自client的提交作业/杀死作业的请求；启动/监控Application Master；监控NodeManager。NodeManager：他负责当前slave节点的资源管理和调度，task的运行。他会向ResourceManager回报资源/Container的情况；接受来自ResourceManager对于Conta...

2021-10-31 21:16:30 263

原创 HDFS的block和切片（split）的区别

1. Block的概念是切块的大小，并且是物理切块。Block是hdfs中的概念。block是物理块，文件存放到HDFS上后，会将大文件按照每块128MB的大小切分，存放到不同的DataNode上。Split的概念是切片，并且是逻辑切块。Split是MapReduce中的概念。split是逻辑上的分片，在MapReduce中Map开始之前，会将输入文件按照指定大小切分为多个小片，每一部分对应一个Map Task，默认split的大小与block的大小相同，为128MB。2...

2021-10-31 20:19:36 564 1

原创节点距离计算

节点距离：两个节点到达最近的共同祖先的距离总和。Distance(d1 / r1 / n1 , d1 / r1 / n1)=0Distance(d1 / r1 / n2, d1 / r1 / n3)=2Distance(d1 / r2/ n1 , d1 / r3/ n3)=4Distance(d1 / r2/ n2, d2/ r4/ n2)=6

2021-10-31 19:46:54 147

原创 HDFS写数据过程

1.创建文件请求；客户端向DistributedFileSystrm发送请求，再由DistributedFileSystrm创建一个输出流叫FSDataOutputStream。HDFS后台会在FSDataOutputStream里面封装DFSOutputStream，DFSOutputStream会专门与数据节点交流进行下一步操作。2.创建文件元数据；DFSOutputStream执行rpc远程调用去调用名称节点，使名称节点在他的系统命名空间中新建一个文件。3.写入数据；流水线的复制方

2021-10-26 22:34:13 2654

原创 HDFS读数据过程

1.打开文件；我们首先要创建FSData Input Stream的输入流，用户客户端只与它打交道，它里面封装的DFSInput Stream会与具体的相关名词之间打交道，并且是后台封装的，不是代码实现的。2.获取数据块信息；DFSInput Stream通过远程过程调用与名称节点进行沟通，获取所访问的数据块集体位置信息。（通过ClientProtocal.getBlockLocationc()查找下一个数据块）返回的时候会以远近进行排序。3.读取请求/4.读取数据；获得位置信息后客户端

2021-10-26 21:12:40 268

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 YARN的工作机制

原创 HDFS的block和切片（split）的区别

原创 节点距离计算

原创 HDFS写数据过程

原创 HDFS读数据过程

空空如也

空空如也

原创节点距离计算