Hadoop 基本了解（一）

最新推荐文章于 2024-05-03 15:32:32 发布

原创最新推荐文章于 2024-05-03 15:32:32 发布 · 742 阅读

0 ·

CC 4.0 BY-SA版权

Hadoop 专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了Hadoop的架构，包括其四个主要组成部分：基础核心、HDFS、MapReduce和Yarn的功能。深入探讨了HDFS的三个关键节点：NameNode、DataNode和SecondaryNameNode的工作原理，以及Yarn中ResourceManager和NodeManager的角色。

部署运行你感兴趣的模型镜像

一.构成

Hadoop主要四个构成部分:

基础核心:提供基础的通用功能
HDFS:分布式存储
MapReduce:分布式计算
Yarn:资源分配（任务的执行方式）

这里写图片描述

1.HDFS的构成

主要分为三个节点：

NameNode:主要存储数据的存放地址等元数据
DataNode:只用来存储数据
SecondaryNameNode:辅助DataNode,把元数据持久化到磁盘中

这里写图片描述

1. NameNode

功能:

存储数据的分布位置、数据的各种描述信息（如文件名、文件大小、文件所在目录、所有者名称、读写执行权限等）
读数据时，要先从NameNode获取文件的分布位置（在哪些DataNode上），然后再从DataNode上读数据（当然，这个过程已经由HDFS的Shell或API实现了）
处理客户端的读写请求.写数据时，先向NameNode提交要写的文件的信息，NameNode检查自己的记录表，以找到合适的DataNode（需要找多个，因为每个文件还要创建副本）来存储这些数据，然后指挥这些DataNode串成一串接收数据。如果某个DataNode在接收数据时罢工，则忽略掉它（忽略之后造成的副本数少于指定数量会在后期补加副本）；如果所有选出的DataNode全挂掉（几率很低），则写入失败。
管理HDFS文件系统的命名空间.需要时，可以调用NameNode列出HDFS中的文件夹及文件（如执行 hdfs dfs -ls / 命令时）。
管理副本的配置和信息（默认三个副本）

元数据的存储位置

由配置文件hdfs-site.xml中的dfs.namenode.name.dir指定

dfs.namenode.name.dir的默认值是file://${hadoop.tmp.dir}/dfs/name

${hadoop.tmp.dir}的默认值是tmp/hadoop-${user.name}

${user.name}是安装Hadoop的用户名

配置时可以在core-site.xml中修改${hadoop.tmp.dir}

持久化的元数据

元数据目录下的文件:

[root@izj6cj3wje0m1jxumjkuelz current]# pwd
/export/hadoop/tmp/dfs/name/current
[root@izj6cj3wje0m1jxumjkuelz current]# ls
edits_0000000000000000001-0000000000000000002  fsimage_0000000000000000057
edits_0000000000000000003-0000000000000000053  fsimage_0000000000000000057.md5
edits_0000000000000000054-0000000000000000055  fsimage_0000000000000000059
edits_0000000000000000056-0000000000000000057  fsimage_0000000000000000059.md5
edits_0000000000000000058-0000000000000000059  seen_txid
edits_inprogress_0000000000000000060           VERSION

由于需要快速查询,NameNode的元数据运行时是加载在内存中的,关闭时内存中的数据会持久化到硬盘中fsimages文件.同时HDFS集群也会将所有的操作都记录到edits文件中

内存元数据 == fsimage + edits

其他fsimage*.md5是校验文件,用于校验fsimage的完整性
seen_txid是hadoop的版本
VERSION里存储的namespaceID：NameNode的唯一ID,clusterID:集群ID，NameNode和DataNode的集群ID应该一致，表明是一个集群