- 博客(6)
- 收藏
- 关注
原创 统计学,机器学习,数据挖掘,深度学习的区别
机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术,深度学习是机器学习的一种。深度学习与机器学习的主要区别是在于性能。统计学与机器学习是在研究模型与算法,统计学基于数学,而机器学习基于机器自主学习,是数学、统计学、计算机科学的交汇融合。机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。...
2021-11-04 22:34:13
789
原创 节点距离计算
jiedian节点距离计算:两个节点到达最近的共同祖先的距离总和。集群可认为机房。DiStance(d1/r1/n0, d1/r1/n0) =0(同一节点上的进程)Distance (d1/r1/n1, d1/r1/n2) =2 (同一机架上的不同节点)Distance (d1/r2/n0,d1/r3/n2) =4 (同一数据中心不同机架上的节点)Distance(d1/r2/n1,d2/r4/n1) =6 (不同数据中心的节点)注意:要一步一步来计算,直至到最近共同祖先,每一.
2021-10-30 12:23:58
318
原创 YARN的工作机制
在 Hadoop1.0 中,MapReduce 的 JobTracker 负责了太多的工作,包括资源调度,管理众多的 TaskTracker 等工作。这自然是不合理的,于是 Hadoop 在 1.0 到 2.0 的升级过程中,便将 JobTracker 的资源调度工作独立了出来,而这个独立出来的资源管理框架,就是 Yarn 。几个重要组成介绍:1,Container:容器。容器由NodeManager启动和管理,并被它所监控。 ...
2021-10-29 21:37:52
648
原创 HDFS的block与切片(split)的区别
一:block是物理上的数据分割,split是逻辑上的数据分割。二: 用户可自定义split size。三:一个split不会包含零星点几或者几点几个block,一定是包含大于等于一个个整数个block。四:一个split不会包含两个file的block,不会跨越file边界。五:split和block是一对多的关系。六:maptasks的个数最终决定于splits的长度。举例:File 1:Block1,Block2,Block3,Block4,Block5File...
2021-10-29 19:36:54
314
原创 HDFS读数据流程图
1,客户端给namenode发起文件下载请求。2,namenode返回文件存储所在的datanode block块信息。3,客户端根据拿到的block信息与距离最近的切片所在的datanode 建立通道信息,获取文件切片。4,datanode将该节点上的切片信息传输给客户端。5,如果没有获取到所有的切片信息,再与距离最近其他切片副本所在的datanode建立通信通道,获取该节点的切片。如此重复,直到获取到所有的切片信息。6.客户端拿到所有的切片后,将切片组装称完整的文件。...
2021-10-29 18:55:12
258
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人