1.x的版本架构模型介绍
文件系统核心模块:
NameNode: 集群中的主节点,管理元数据(文件的大小,文件的位置,文件的权限,元数据就是描述数据的数据),主要用于管理集群当中的各种数据。
Secondary NameNode: 主要能用于Hadoop
中元数据信息的辅助管理。
DataNode: 集群中的从节点,主要用于存储集群当中的各种数据。
数据计算核心模块:
JobTracker: 接收用户的计算任务,并分配任务给从节点。
TaskTracker: 负责执行主节点JobTracker
分配的任务
2.x的版本架构模型介绍(重点)
第一种:NameNode与ResourceManager单节点架构模型
文件系统核心模块: 同上
数据计算核心模块:
ResourceManager: 接收用户的计算请求任务,并负责集群的资源分配
NodeManager: 负责执行主节点APPmaster分配的任务
第四种:NameNode高可用与ResourceManager高可用架构模型
文件系统核心模块:
NameNode: 集群中的主节点,主要用于管理集群当中的各种数据。其中NameNode
可以有两个,形成高可用状态。
DataNode: 集群中的从节点,主要用于存储集群当中的各种数据。
JournalNode: 文件系统元数据管理
数据计算核心模块:
ResourceManager: 接收用户的计算请求任务,并负责集群的分配。以及计算任务的划分,通过zookeeper
实现ResourceManager
的高可用。ResourceManager
有两个,形成高可用状态
NodeManager: 负责执行主节点ResourceManager
分配的任务。
hadoop 的六个配置文件的作用
core-site.xml: 核心配置文件,主要定义了我们的集群是分布式,还是本机运行
hdfs-site.xml: 分布式文件系统的核心配置 决定了我们数据存放在哪个路径,数据的副本,数据的block
块大小等等,linux的磁盘空间的查看 df -lh
hadoop-env.sh 配置我们jdk
的home
路径
mapred-site.xml 定义了我们关于mapreduce
运行的一些参数
yarn-site.xml 定义我们的yarn集群
slaves 定义了我们的从节点是哪些机器datanode nodemanager
运行在哪些机器上