
Hadoop 3.3.1
以HDFS为主
dzzxjl
大数据 & 推荐算法 工程师
展开
-
Yarn资源管理与调度
Spark yarn 模式有两种 yarn-client,其中yarn-client适合测试环境 yarn-cluster, yarn-cluster适合生产环境 在详细说明Yarn模式之前, 需要先了解几个名词 ResourceManager: 整个集群只有一个, 负责集群资源的统一管理和调度, 因为整个集群只有一个,所以也有单点问题 NodeManager: 它可以理解为集群中的每一台slave AM: application master, 对于每一个应用程序都有一个AM, AM主要是向RM申请原创 2021-11-16 13:19:41 · 912 阅读 · 0 评论 -
HDFS基础
Hadoop分布式文件系统,Hadoop生态圈的基本组成部分 一个HDFS集群主要由一个NameNode和很多个Datanode组成:Namenode管理文件系统的元数据,而Datanode存储了实际的数据。 HDFS是一种文件系统,自身也有块(block)的概念,其文件块要比普通单一磁盘上文件系统大的多,默认是64MB 分布式文件系统是将分布于不同电脑上的文件组合为单一的名称空间,并使得在网络上建立一个单一的、层次化多重文件服务器和服务器共享的工作更为方便的途径 ...原创 2021-10-30 12:57:09 · 904 阅读 · 0 评论 -
MapReduce计算模型
Hadoop的主要执行(计算)框架 大而化小、异而化同 每个阶段都是用键值对作为输入和输出 Job = Map + Reduce 通过map和reduce两个操作实现了并行分布式计算框架,mapreduce的中间计算结果需要存储在HDFS的磁盘中,频繁访问磁盘极大降低了数据处理的效率;Mapreduce只提供map和reduce两个操作,大量的操作需要开发者重写代码来实现,实现成本较高 PC机分为三类: Master(负责调度,相当于工地的工头) Worker(相当于干活的工人) Mapper(处.原创 2021-09-26 22:46:50 · 323 阅读 · 0 评论