m0_62605086-优快云博客

原创统计学，机器学习，数据挖掘和深度学习之间的区别

统计学，机器学习，数据挖掘和深度学习之间的区别 1.统计学统计学主要通过利用大量数据进行量化分析，总结出一些经验规律，做出后期推断和预测，从而为相关决策提供依据和参考，其不仅仅是统计数字，还包含了调查、收集、分析、预测等，应用范围十分广泛。 2.数据挖掘也就是data mining，是一个很宽泛的概念。字面意思就是从成吨的数据里面挖掘有用的信息。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 3.机器学习机

2021-11-04 21:57:13 513 1

原创 YARN的工作机制

YARN的工作机制 RM 负责接收用户提交的任务，并且决定为任务分配多少资源和调度到哪个 NM 去执行；NM 是真正执行任务的节点，周期性的向 RM 汇报自己的资源使用状况并领取 RM 分配的任务，负责启动和停止任务相关的进程等工作。 1.客户端向 ResourceManager(RM)提交任务，同时指定到哪个队列和需要多少资源； 2. ResourceManager(RM)在收到任务的请求后，选择一个满足队列和资源需要的NodeManager(NM)，通知它启动一个特殊的container（Applica

2021-11-02 22:05:00 173

原创节点距离计算

节点距离计算节点距离=两个节点到达最近的共同祖先的距离总和 1.在同一节点上，节点之间的距离是0； 2.在同一机架上的不同节点上（两个节点的共同点是同一机架），两个节点到机架的距离都是1，所以两个节点之间的距离是1+1=2； 3.在同一集群的不同机架上（两个节点的共同点是同一集群），而节点要到达集群，首先要到机架（距离是1）再到集群（距离是2），所以两个节点之间的距离是2+2=4； 4.在同一数据中心的不同集群上（两个节点的共同点是同一数据中心），而节点要到达数据中心，首先到机架（距离是1)再到集群（距离

2021-10-31 20:50:26 326

原创 HDFS读数据流程

HDFS读数据流程 1.客户端（Cilent）访问名称节点（NameNode），查询元数据信息，获得这个文件的数据块文件列表，返回输入流对象； 2.获取距离客户端（Cilent）最近的DateNode,并与其建立通信，客户端（Cilent）直接从数据节点（DateNode）以数据流的方式读取数据； 3。关闭数据流 ...

2021-10-31 17:44:22 141

原创 HDFS写数据流程

HDFS写数据流程 1.客户端通知名称节点：我要写文件了。 2.名称节点创建一个新的文件记录。（前提是：确认客户端拥有创建文件的权限和没有相同的文件后) 3.文件将被分成一个个的数据块（默认大小：64MB）通过文件流的方式往数据节点中写数据（注意：写数据时会写冗余数据，冗余数据块的默认个数是3个）。 4. ...

2021-10-31 16:52:24 170

原创 HDFS中的block和split的区别及联系

1）HDFS是一个高度容错性系统（2）HDFS中的block和split的区别及联系 (3)block是物理块，文件存放到HDFS上后，会将大文件按照每块128MB的大小切分，存放到不同的DataNode上。（block大小是系统按照固定模式设置的，默认配置就是最佳实践）注意：（*）在hadoop1.x版本中，block默认的大小为64MB，在hadoop2.x版本修改成了128MB。默认block的大小参数配置以字节为单位（例如134217728，128MB）也可以使用如128k，512m，1g等

2021-10-26 22:16:59 997

m0_62605086的博客

原创统计学，机器学习，数据挖掘和深度学习之间的区别

原创 YARN的工作机制

原创节点距离计算

原创 HDFS读数据流程

原创 HDFS写数据流程

原创 HDFS中的block和split的区别及联系

空空如也

空空如也

原创 统计学，机器学习，数据挖掘和深度学习之间的区别

原创 YARN的工作机制

原创 节点距离计算

原创 HDFS读数据流程

原创 HDFS写数据流程

原创 HDFS中的block和split的区别及联系

空空如也

空空如也

原创统计学，机器学习，数据挖掘和深度学习之间的区别

原创节点距离计算