- 博客(6)
- 收藏
- 关注
原创 统计学,机器学习,数据挖掘,深度学习的关系
一,统计学 统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等,应用范围十分广泛。 二、数据挖掘 顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话...
2021-11-02 22:45:17
497
原创 YARN工作机制
YARN: yet another resource negotiator,另一种资源协调者。 是一个通用的资源管理系统,可为上层提供统一的资源管理和调度。 它的引入为集群在利用率,资源统一管理和数据共享等方面带来了巨大的好处。 YARN的功能 资源管理和程序调度。 YARN工作时 作业提交阶段 作业初始化阶段 任务分配阶段 任务运行阶段 作业完成阶段 如图所示 15.框架更新计算的进度和状态。 以上就是YARN的工作机制了。 ...
2021-11-02 22:03:21
142
原创 HDFS读数据流程
hdfs采用的文件读取模式“一个文件一旦创建,写入,关闭之后不能修改”,确保了数据的一致性,并能够实现数据访问高吞吐量。 读取数据流程详解: 客户端给nemenode发起下载文件请求。 namenode返回目标文件的元数据。 ...
2021-10-30 20:45:06
124
原创 HDFS中block和切片的区别
数据块(block) 是HDFS物理数据块,一个大文件丢到HDFS,会被HDFS切分成指定大小的数据块。 数据切片 逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据
2021-10-30 20:07:57
126
原创 节点距离计算
节点距离:两个节点到达最近的共同祖先的距离总和 如图所示,假设有数据中心d1机架r1节点n1 该节点我们可以d1/r1/n1以此标记。利用这种标记列出四种距离描述。 1.同一个机架同一个节点 distance(d1/r1/n0,d1/r1/n0)=0(图中黄色部分) 2.同一个机架上的不同节点 distance(d1/r1/n2,d1/r1/n3)=2 (图中粉色部分) 3.同一个集群不同机架上的节点 distance(d1/r1/n1,d1/r2/n2)=2+2=4 (图..
2021-10-30 19:40:40
250
原创 HDFS写数据流程
跟namenode通信请求上传文件,namenode检查目标文件是否已经存在,父目录是否已经存在 namenode返回可以上传 client先对文件进行切分,请求第一个block传输到datanode服务器上 nemenode返回三个datanode服务器dn1 dn2 dn3 client请求3台datanode(按网络拓扑上的就近原则,一样的话随机) 调用rpc建立pipeline,dn收到请求会继续调用dn2 dn2调用dn3 然后逐步返回客户端 ..
2021-10-26 21:41:48
878
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人