- 博客(7)
- 收藏
- 关注
原创 统计学 数据挖掘 机器学习 深度学习之间的关联
1.机器学是建立在统计学习的基础上,统计学是数据分布进行假设,以强大的数学理论支撑解释因果,注重参数推断;统计学是通过搜索,整理,分析,描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它科学的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化,条理化,符合统计分析的需要。数据整理是介于数据收集与数据分析之间的一个必要环节。2.数据挖掘,顾名思义就是从海量数据中“挖掘”隐藏信息,
2021-11-01 22:11:19
759
原创 YARN的工作机制
YARN是一个资源调度平台,负责为运行程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN通过两类长期运行的守护进程提供自己的核心服务:1.管理集群上的资源使用资源管理器(resource manager);2.运行在集群中所有节点上且能够启动和监控容器(container)的节点容器(node manager)。下面介绍一下YARN的架构以及如何工作:YARN也是典型的Master-Slav...
2021-10-31 18:11:21
260
原创 节点距离计算
图中:Distance(/d1/r1/n0)=0(同一节点上的进程) Distance(/d1/r2/n0,/d1/r3/n2)=4(不同机同一数据中心架上的节点)Distance(/d1/r1/n1,/d1/r1/n2)=2(同一机架上的不同节点) Distance(/d1/r2/n1,/d2/r4/n1)=6(不同数据中心的节点) 节点距离=两个节点到达最近的共同祖先的距离之和 。1.如图;在同一节点上,它们之间的距离当然是0;2*0=0。2.在同一机架上的不同节点,...
2021-10-31 16:14:52
217
原创 HDFS读数据流
HDFS采用的文件读取模式是“一个文件一旦创建,写入,关闭之后就不能修改”,保证了数据的一致性,并能够实现大数据访问高吞吐量。 1.客户端通过调用分布式文件系统对象中的Open()函数来读取它所需要的数据。 2.分布式文件系统(Distributed File System) 会通过RPC协议调用名称节点来确定请求文件块所在的位置。这里需要注意的是,名称节点只会返回调用文件中开始的几个块而不是全部返回,这些返回的数据节点会按照Hadoop定义的集群拓...
2021-10-31 15:29:48
147
原创 HDFS写数据流
HDFS是Hadoop大数据生态系统的底层核心提供了大数据分布式存储的支持。HDFS的优点很多,其中的简单的文件模型里的“一次写入多次读取”就是HDFS写数据流时用了这个模式。 这里也说一下,在HDFS中,名称节点(NameNode)负责管理分布式文件系统的命令空间(Name space),保存了两个核心的数据结构Fslamge(元数据镜像)和EditLog(记录了所有针对文件的创立,删除,重命名等操作)。 数据节点(DataNode)...
2021-10-31 14:25:34
190
原创 HDFS 的block和切片(split)的区别
HDFS的block和切片(split)的区别1.数据块的block: 是HDFS物理数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即block。2.数据切片: 数据切片是逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据。3.split的大少在默认的情况下和HDFS的block切块大少一致,为了是MapReduce处理的时候减少了由于split和block之间大小不一致,可能会完成多余的...
2021-10-31 12:17:04
957
原创 2021-10-26
HDFS写数据的过程 我刚认识HDFS是在学Hadoop的基础上,Hadoop的高可靠性就使用了HDFS分布式文件系统。HDFS是为处理超大数据集的应用处理需求而设计开发的,对高吞吐量大规模文件操作带来了很多便利。HDFS是Hadoop大数据生态系统的底层核心提供了大数据分布式存储的支持。在HDFS的写数据的过程就是利用了HDFS的简单的文件模型“一次写入多次读取”的优点来写入的。 H
2021-10-26 23:53:22
79
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人