自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_62660323的博客

原创 2021-11-04

统计学：统计学的英文statistics，统计学是通过搜索、整理、分析、描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识，其应用范围几乎覆盖了社会科学和自然科学的各个领域。任何统计方法是有效的只有当这个系统或是所讨论的母体满足方法论的基本假设。机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效

2021-11-05 00:03:57 667

原创 YARN的工作流程

YARN的工作流程YARN 也是典型的 Master-Slave 架构，Master 称为 ResourceManager(RM), Slave 称为 NodeManager(NM)。1. 用户使用客户端向 RM 提交一个任务，同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置，如果没有特别指定，则使用默认设置。2. RM 在收到任务提交的请求后，先根据资源和队列是否满足要求选择一个 NM，通知它启动一个特殊的 container，称为 ApplicationMas...

2021-11-03 01:45:58 175

原创 HDFS的block和切片（split）的区别

HDFS的block和切片（split）的区别小于128m为1个split，大于128m小于256m就是2个split，分成128m一个split和剩下的一个split文件分割后，会有一个文件 --> block的映射，这个映射是持久化到硬盘中的，具体的映射关系表是在FSNamesystem.java中构建的（该部分的构建使用的是FSDirectory.java的功能，filename - blockset）；有了文件到块的映射表就可以通过文件找1.split是MapReduce里的概.

2021-11-03 01:37:15 457

原创计算距离节点

计算距离节点1.同一机架的同一节点，不用说都知道是02.同一机架的不同节点，n1,n2的共同祖先是r1，n1到r1的距离是1，n2到r1的距离是1，所以节点距离就是23.同一数据中心不同机架上的节点，r2的n0与r3的n2共同祖先是集群d1,n0到d1的距离是2,n2到d1的距离也是2，所以节点距离就是44.不同数据中心的节点，共同祖先是数据中心的父亲，所以节点距离是3+3=6...

2021-11-03 00:47:13 99

原创读数据流程

读数据流程1.客户端通过Distributed FileSystem向NameNode请求下载文件，namenode检查下载的合法性（是否有权限下载以及下载的合法性），NameNode通过查询元数据，找到文件块所在的DataNode地址。2.挑选一台DataNode（网络拓扑上的就近原则，如果都一样，则随机挑选一台DataNode）服务器，请求建立socket流。3.DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。4.客户端以Packet为单.

2021-11-02 23:35:23 578

原创写数据流程

HDFS写数据流程第一步.跟namenode通信请求（RPC）上传文件，namenode中的元信息检查目标文件是否已经存在，父目录是否存在第二步.namenode返回后是否可以上传第三步.客户端再向namenode请求第一个block该传输到那些datanode上第四步.namenode会返回三台datanode client 请求 3 台 DataNode 中的一台 A 上传数据（本质上是一个 RPC 调用，建立 pipeline），A 收到请求会继续调用 B，然后 B 调用 C，将整个pi

2021-11-02 23:12:20 299

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

m0_62660323 优快云认证博客专家优快云认证企业博客

码龄3年

IP 属地：内蒙古

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

6: 原创

219万+: 周排名

150万+: 总排名

2275: 访问

: 等级

60: 积分

0: 粉丝

0: 获赞

0: 评论

2: 收藏

私信

关注

热门文章

分类专栏

大数据导论 6篇

最新文章

提示

确定要删除当前文章？

取消删除