
大数据导论作业
大数据导论作业
柯_sir
这个作者很懒,什么都没留下…
展开
-
统计学,机器学习,数据挖掘和深度学习之间的区别
一、数据挖掘 数据挖掘(Data Mining),顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话”,支持决策。所以,数据挖掘更偏向应用。 数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。原创 2021-11-05 22:45:40 · 922 阅读 · 0 评论 -
Yarn的工作机制
Yarn是用于进行任务调度和资源管理的框架. Yarn的组件主要包括: ResourceManager : 资源管理 Application Master : 任务调度 NodeManager : 节点管理,负责执行任务 Yarn的工作流程如下图所示: 1. 用户向Yarn中提交一个MR(MapReduce)任务,由ResourceManager中的Applications Manager接收 2.Applications Manager负责资源的分配, 根据任务计算出所需要的资源,如cpu原创 2021-10-30 22:07:08 · 1530 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
1. split是MapReduce里的概念,是切片的概念,split是逻辑切片; 2.而block是hdfs中切块的大小,block是物理切块;原创 2021-10-30 21:35:04 · 82 阅读 · 0 评论 -
节点间的距离计
同一节点上,他们距离是0。 2.同一机架不同节点之间距离是1,所以1+1=2。 3.同一集群不同机架的节点,不同节点不同机架的距离是1和2。所以距离是4 4.同一个数据中心不同集群的节点,节点到数据中心距离是3,所以距离是6. ...原创 2021-10-30 20:54:13 · 160 阅读 · 0 评论 -
HDFS写数据流程
1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2)NameNode返回是否可以上传。 3)客户端请求第一个 Block上传到哪几个DataNode服务器上。 4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。 5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。 6原创 2021-10-30 18:27:49 · 91 阅读 · 0 评论 -
HDFS读数据流
①客户端通过调用分布式文件系统对象中的Open( )函数来读取它所需要的数据。 ②Distrbuted File System会 通过RPC协议调用名称节点来确定请求文件块所在的位置。 ③完成以上步骤,客户端利用FSDataInputStream的Read(方法开始读取数据。 ④FSDataInputStream连接保存此文件第一个数据 块的最近的数据节点,并以数据流的形式读取数据;客户端多次调用Read(,直到到达数据块结束位置。 ⑤当第一个块读取完毕时,DFSDataIn...原创 2021-10-26 20:44:23 · 130 阅读 · 0 评论