- 博客(6)
- 收藏
- 关注
原创 统计学,机器学习,数据挖掘和深度学习之间的区别
统计学,机器学习,数据挖掘和深度学习之间的区别 1.统计学 统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等,应用范围十分广泛。 2.数据挖掘 也就是data mining,是一个很宽泛的概念。字面意思就是从成吨的数据里面挖掘有用的信息。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 3.机器学习 机
2021-11-04 21:57:13
513
1
原创 YARN的工作机制
YARN的工作机制 RM 负责接收用户提交的任务,并且决定为任务分配多少资源和调度到哪个 NM 去执行;NM 是真正执行任务的节点,周期性的向 RM 汇报自己的资源使用状况并领取 RM 分配的任务,负责启动和停止任务相关的进程等工作。 1.客户端向 ResourceManager(RM)提交任务,同时指定到哪个队列和需要多少资源; 2. ResourceManager(RM)在收到任务的请求后,选择一个满足队列和资源需要的NodeManager(NM),通知它启动一个特殊的container(Applica
2021-11-02 22:05:00
173
原创 节点距离计算
节点距离计算 节点距离=两个节点到达最近的共同祖先的距离总和 1.在同一节点上,节点之间的距离是0; 2.在同一机架上的不同节点上(两个节点的共同点是同一机架),两个节点到机架的距离都是1,所以两个节点之间的距离是1+1=2; 3.在同一集群的不同机架上(两个节点的共同点是同一集群),而节点要到达集群,首先要到机架(距离是1)再到集群(距离是2),所以两个节点之间的距离是2+2=4; 4.在同一数据中心的不同集群上(两个节点的共同点是同一数据中心),而节点要到达数据中心,首先到机架(距离是1)再到集群(距离
2021-10-31 20:50:26
326
原创 HDFS读数据流程
HDFS读数据流程 1.客户端(Cilent)访问名称节点(NameNode),查询元数据信息,获得这个文件的数据块文件列表,返回输入流对象; 2.获取距离客户端(Cilent)最近的DateNode,并与其建立通信,客户端(Cilent)直接从数据节点(DateNode)以数据流的方式读取数据; 3。关闭数据流 ...
2021-10-31 17:44:22
141
原创 HDFS写数据流程
HDFS写数据流程 1.客户端通知名称节点:我要写文件了。 2.名称节点创建一个新的文件记录。(前提是:确认客户端拥有创建文件的权限和没有相同的文件后) 3.文件将被分成一个个的数据块(默认大小:64MB)通过文件流的方式往数据节点中写数据(注意:写数据时会写冗余数据,冗余数据块的默认个数是3个)。 4. ...
2021-10-31 16:52:24
170
原创 HDFS中的block和split的区别及联系
1)HDFS是一个高度容错性系统 (2)HDFS中的block和split的区别及联系 (3)block是物理块,文件存放到HDFS上后,会将大文件按照每块128MB的大小切分,存放到不同的DataNode上。(block大小是系统按照固定模式设置的,默认配置就是最佳实践) 注意:(*)在hadoop1.x版本中,block默认的大小为64MB,在hadoop2.x版本修改成了128MB。 默认block的大小参数配置以字节为单位(例如134217728,128MB) 也可以使用如128k,512m,1g等
2021-10-26 22:16:59
997
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅