- 博客(6)
- 收藏
- 关注
原创 2021-11-04
统计学:统计学的英文statistics,统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。任何统计方法是有效的只有当这个系统或是所讨论的母体满足方法论的基本假设。机器学习:机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效
2021-11-05 00:03:57
667
原创 YARN的工作流程
YARN的工作流程YARN 也是典型的 Master-Slave 架构,Master 称为 ResourceManager(RM), Slave 称为 NodeManager(NM)。1. 用户使用客户端向 RM 提交一个任务,同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置,如果没有特别指定,则使用默认设置。2. RM 在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NM,通知它启动一个特殊的 container,称为 ApplicationMas...
2021-11-03 01:45:58
175
原创 HDFS的block和切片(split)的区别
HDFS的block和切片(split)的区别小于128m为1个split,大于128m小于256m就是2个split,分成128m一个split和剩下的一个split文件分割后,会有一个 文件 --> block的映射,这个映射是持久化到硬盘中的,具体的映射关系表是在FSNamesystem.java中构建的(该部分的构建使用的是FSDirectory.java的功能,filename - blockset); 有了文件到块的映射表就可以通过文件找1.split是MapReduce里的概.
2021-11-03 01:37:15
457
原创 计算距离节点
计算距离节点1.同一机架的同一节点,不用说都知道是02.同一机架的不同节点,n1,n2的共同祖先是r1,n1到r1的距离是1,n2到r1的距离是1,所以节点距离就是23.同一数据中心不同机架上的节点,r2的n0与r3的n2共同祖先是集群d1,n0到d1的距离是2,n2到d1的距离也是2,所以节点距离就是44.不同数据中心的节点,共同祖先是数据中心的父亲,所以节点距离是3+3=6...
2021-11-03 00:47:13
99
原创 读数据流程
读数据流程1.客户端通过Distributed FileSystem向NameNode请求下载文件,namenode检查下载的合法性(是否有权限下载以及下载的合法性),NameNode通过查询元数据,找到文件块所在的DataNode地址。2.挑选一台DataNode(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)服务器,请求建立socket流。3.DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。4.客户端以Packet为单.
2021-11-02 23:35:23
578
原创 写数据流程
HDFS写数据流程第一步.跟namenode通信请求(RPC)上传文件,namenode中的元信息检查目标文件是否已经存在,父目录是否存在第二步.namenode返回后是否可以上传第三步.客户端再向namenode请求第一个block该传输到那些datanode上第四步.namenode会返回三台datanode client 请求 3 台 DataNode 中的一台 A 上传数据(本质上是一个 RPC 调用,建立 pipeline),A 收到请求会继续调用 B,然后 B 调用 C,将整个pi
2021-11-02 23:12:20
299
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人