- 博客(5)
- 收藏
- 关注
原创 YARN的工作机制
ResourceManager:它是master上的进程,负责管理和调度。处理来自client的提交作业/杀死作业的请求;启动/监控Application Master;监控NodeManager。NodeManager:他负责当前slave节点的资源管理和调度,task的运行。他会向ResourceManager回报资源/Container的情况;接受来自ResourceManager对于Conta...
2021-10-31 21:16:30
234
原创 HDFS的block和切片(split)的区别
1. Block的概念是切块的大小,并且是物理切块。Block是hdfs中的概念。block是物理块,文件存放到HDFS上后,会将大文件按照每块128MB的大小切分,存放到不同的DataNode上。Split的概念是切片,并且是逻辑切块。Split是MapReduce中的概念。split是逻辑上的分片,在MapReduce中Map开始之前,会将输入文件按照指定大小切分为多个小片,每一部分对应一个Map Task,默认split的大小与block的大小相同,为128MB。2...
2021-10-31 20:19:36
523
1
原创 节点距离计算
节点距离:两个节点到达最近的共同祖先的距离总和。Distance(d1 / r1 / n1 , d1 / r1 / n1)=0Distance(d1 / r1 / n2, d1 / r1 / n3)=2Distance(d1 / r2/ n1 , d1 / r3/ n3)=4Distance(d1 / r2/ n2, d2/ r4/ n2)=6
2021-10-31 19:46:54
126
原创 HDFS写数据过程
1.创建文件请求;客户端向DistributedFileSystrm发送请求,再由DistributedFileSystrm创建一个输出流叫FSDataOutputStream。HDFS后台会在FSDataOutputStream里面封装DFSOutputStream,DFSOutputStream会专门与数据节点交流进行下一步操作。2.创建文件元数据;DFSOutputStream执行rpc远程调用去调用名称节点,使名称节点在他的系统命名空间中新建一个文件。3.写入数据;流水线的复制方
2021-10-26 22:34:13
2598
原创 HDFS读数据过程
1.打开文件;我们首先要创建FSData Input Stream的输入流,用户客户端只与它打交道,它里面封装的DFSInput Stream会与具体的相关名词之间打交道,并且是后台封装的,不是代码实现的。2.获取数据块信息;DFSInput Stream通过远程过程调用与名称节点进行沟通,获取所访问的数据块集体位置信息。(通过ClientProtocal.getBlockLocationc()查找下一个数据块)返回的时候会以远近进行排序。3.读取请求/4.读取数据;获得位置信息后客户端
2021-10-26 21:12:40
221
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人