Hadoop的HDFS以及YARN简介

最新推荐文章于 2025-09-19 00:30:00 发布

原创

最新推荐文章于 2025-09-19 00:30:00 发布 · 938 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop #HDFS #YARN

本文介绍了Hadoop的分布式存储系统HDFS，包括其主要优缺点、功能模块如NameNode、SecondaryNameNode、DataNode等，以及读写流程。此外，还探讨了Hadoop2.0的高可用特性、ZooKeeper的角色和YARN的资源管理任务调度流程。

Hadoop的HDFS以及YARN简介

Hadoop分布式系统简介

Hadoop是分布式的系统架构，是Apache基金会顶级金牌项目
来源：三大论文GFS、MapReduce、 Bigtable
创始人：Doug cutting

Hadoop分布式系统重要部分

HDFS
YARN
MapReduce
Zookeeper
Hive
Hbase
…

HDFS(分布式存储系统)

用途：解决大数据的存储问题

主要优缺点

优点：
- 分布式的特性
- 适合大数据处理
- 百万规模以上的文件数量
- 适合批处理
- 移动计算而非数据(MR),数据位置暴露给计算框架
- 高可靠性，高容错性
缺点
- 低延迟高数据吞吐访问问题
- 小文件读取占大量内存
- 不支持文件修改

功能模块

数据存储单元（block）

文件被切分成固定大小的数据块block

默认数据块大小为128MB（Hadoop2.x）

数据大小不足一个block存成一个block

block为逻辑概

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Infinity_TP

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hadoop入门—HDFS、MR、Yarn

qq_73181349的博客

04-15

2834

hadoop生态及架构，HDFS存储方式、Yarn资源调度、MR并行计算

【Hadoop】核心组件深度剖析：HDFS、YARN与MapReduce的奥秘

博客虽小，世界尽在其中

08-20

6465

本文深入探讨了Hadoop这一分布式计算框架的核心组件——HDFS（Hadoop Distributed File System）、YARN（Yet Another Resource Negotiator）以及MapReduce的基本原理与架构，为读者全面揭示了Hadoop如何在大数据处理领域发挥关键作用。首先，文章详细解析了HDFS的架构与工作原理，强调了其作为Hadoop生态系统中的数据存储基石，如何通过分布式存储方式解决大数据存储难题。HDFS的设计旨在处理海量数据，利用冗余存储和节点间的数据复制

参与评论您还未登录，请先登录后发表或查看评论

hadoop的三大核心组件之HDFS和YARN

09-19

2470

深入剖析Hadoop三大核心组件：HDFS, MapReduce与YARN

hadoop之HDFS及yarn（一）

Small_temper的博客

06-04

1380

hdfs hdfs三台服务器节点配置: 各节点说明： namenode ：HDFS的守护进程，负责维护整个文件系统，存储着整个文件系统的元数据信息，有image+edit log ，namenode不会持久化存储这些数据，而是在启动时重建这些数据。 datanode：是具体文件系统的工作节点，当我们需要某个数据，namenode告诉我们去哪里找，就直接和那个DataNode对应的服务器的后台进程进行通信，由DataNode进行数据的检索，然后进行具体的读/写操作 secondarynamen

【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn

weixin_43889578的博客

06-29

2914

MapReduce是一个分布式离线计算框架，专门用于处理大数据场景中与实时性无关的一些离线计算任务。MapReduce的数据输入一般是HDFS，然后经过InputFormat进行输入格式化，变成格式；然后执行用户实现的Mapper类型的map方法，进行数据映射，映射处理的结果也是格式；然后执行一个shuffle过程，对映射结果进行按key进行分组分区，把同一区域的所有KV发送到同一个Reducer，由一个节点进行；Reducer对同一个key分组下的所有value进行聚合操作；

Hadoop 之集群安装（HDFS、YARN）

03-06

1693

Hadoop 之集群安装（HDFS、YARN）

HDFS、YARN、Mapreduce简介

weixin_34417814的博客

10-10

632

一、 HDFS介绍： Hadoop2介绍 HDFS概述 HDFS读写流程 1. Hadoop2介绍 Hadoop是Apache软件基金会旗下的一个分布式系统基础架构。Hadoop2的框架最核心的设计就是HDFS、MapReduce和YARN，为海量的数据提供了存储和计算。 HDFS主要是Hadoop的存储，用于海量数据的存储； MapReduce主要运用于分...

Hadoop集群搭建（hdfs、yarn）

majunssz的博客

03-24

1385

Hadoop 是 Apache 软件基金会旗下的一个开源项目，是用于处理大数据的分布式系统基础架构，被广泛应用于大数据存储、处理和分析等场景。

hadoop之hdfs和yarn

coder_Gray的博客

03-19

1630

一.简介- 什么是hdfs？ hdfs是一种分布式系统，其组成是namenode节点和datanode节点。顾名思义，namenode是“名字节点”，存储的是这部分存储区域的相关信息，并管理datanode节点；而datanode存储的就是数据。一个namenode对应一个或多个datanode节点，每一个datanode运行在一台机器上，所以这些datanode组合到一起将形成一个集群（c

Hadoop 生态系统核心组件详解：从 HDFS 到 YARN 再到 MapReduce

威哥说编程

11-28

2452

Hadoop 是一个开源的分布式计算框架，主要用于处理海量数据。Hadoop 生态系统包括多个核心组件，其中最为关键的三个组件是和。这三者各自承担着不同的职责，并且密切协作，共同完成大规模数据存储与计算任务的处理。本文将详细介绍这三个核心组件的工作原理、架构设计、它们之间的协作关系以及它们在大数据处理流程中的角色。我们将深入分析每个组件如何确保高效的数据存储、资源调度与分布式计算，同时通过代码示例帮助读者理解如何利用 MapReduce 编程模型处理大规模数据。

hadoop yarn 跟 hdfs 原理介绍

sade1231的博客

08-01

449

https://blog.youkuaiyun.com/zonzereal/article/details/78095110

Hadoop中hdfs与yarn命令大全

m0_58258383的博客

07-28

708

随着大数据平台的不断发展，我们对hadoop使用也越来越多。同时hadoop许多命令在使用时会产生遗忘和参数选择的问题出现。本文将hadoop平台上的hdfs与yarn常用命令进行汇总解释。

Hadoop(hdfs, yarn, mapreduce)理论详解

myself_ning的博客

07-10

2014

hadoop,hdfs,yarn,mapreduce

大数据之——Hadoop的HDFS、YARN、MapReduce

m0_73991249的博客

10-21

3402

如何看他们的关系？首先HDFS将【NameNode】部署到一个节点先，分出多个【DataNode】分布到各个节点上，里面分别存储了将总的海量数据分散了的【子数据】，最后还要有一个节点有【Secondary NameNode】来备份【NameNode】的数据；

hadoop，hdfs和yarn回顾

Doramonbaby的博客

12-05

429

回顾之旅第二篇 emm 一年前曾经自己搭过hadoop分布式集群，集群倒是跑起来了，而且成功安装了hive，spark，yarn。不过吧，之后忙其他事情去了，现在啥都想不起来了，只能康康以前留下的资料。所以啊，还是要写写文章，让自己记得更牢固一些！！从hadoop的生态圈讲起， ...

大数据之面试篇之Hadoop/HDFS/Yarn

m0_58371965的博客

12-16

249

MapReduce篇 Hadoop解决大规模数据分布式计算的方案是MapReduce。MapReduce既是一个编程模型，又是一个计算框架。也就是说，开发人员必须基于MapReduce编程模型进大数据培训行编程开发，然后将程序通过MapReduce计算框架分发到Hadoop集群中运行。我们先看一下作为编程模型的MapReduce。说说MapReduce编程模型 MapReduce是一种非常简单又非常强大的编程模型。简单在于其编程模型只包含map和reduce两个过程，map的主要输入是一对&lt

【Hadoop】搭建HDFS集群和YARN集群

weixin_38776330的博客

07-24

619

Hadoop的两个部分: YARN集群(MapReduce2)——管理调度任务资源 HDFS——分布式文件系统，解决海量数据存储安装步骤环境预处理设置节点的hostname：修改 /etc/sysconfig/network，并执行命令使修改立即生效： hostname 节点名设置节点间免密登录一、安装jdk 二、安装Hadoop2.7.2 直接解压安装包，放到/usr/local/hadoop目录下三、修改Hadoop配置文件 hadoop配置文件都在hadoop-2.7.

Hadoop hdfs yarn

08-21

### HDFS的功能 Hadoop分布式文件系统（HDFS）是Hadoop的核心组件之一，设计用于存储大量的数据集，并且能够在廉价的硬件上运行。HDFS提供了高吞吐量的数据访问，适合一次写入、多次读取的场景。它将大文件分割成多个块，并将这些块分布存储在集群中的多个节点上，每个块都会在多个节点上复制以保证数据的可靠性和容错性[^1]。 ### YARN的功能 Yet Another Resource Negotiator (YARN) 是Hadoop的资源管理层，负责管理和调度计算资源。YARN使得Hadoop能够支持多种计算框架，不仅仅是MapReduce。YARN通过将资源管理和作业调度/监控的功能分开，提高了系统的灵活性和效率。它允许多种不同的分布式计算模型共享同一个数据集，而无需将数据移动到不同的系统中[^2]。 ### HDFS和YARN的区别 HDFS和YARN在Hadoop生态系统中扮演着不同的角色。HDFS是数据存储层，专注于数据的存储和管理，而YARN是资源管理层，负责分配和管理集群中的计算资源。HDFS处理的是静态数据，即存储在集群中的数据，而YARN处理的是动态数据，即运行在集群上的计算任务所需的资源[^3]。 ### HDFS和YARN的关系尽管HDFS和YARN在功能上有明显的区别，但它们紧密协作以支持Hadoop的高效运行。HDFS为YARN提供了存储资源信息和应用程序特定数据的基础。YARN则利用HDFS来存储应用程序的输入输出数据，并且在执行计算任务时，YARN会向HDFS请求数据块的位置信息，以便将计算任务调度到数据所在的节点上，从而实现数据本地化处理，减少网络传输开销[^3]。 ### Hadoop生态系统中的HDFS与YARN集成在Hadoop生态系统中，HDFS和YARN的集成是通过Hadoop的架构设计实现的。YARN通过与HDFS的交互来获取数据的位置信息，并据此进行任务调度。这种设计不仅提高了数据处理的效率，还增强了系统的可扩展性，使得Hadoop能够轻松地适应不断增长的数据量和多样化的计算需求[^2]。 ### Hadoop生态系统中的HDFS与YARN协同工作示例以下是一个简单的MapReduce程序示例，展示了HDFS和YARN是如何协同工作的： ```python # 假设我们有一个简单的MapReduce程序，用于统计文本中单词的出现次数 # Map阶段 def map_function(document): # 将文档分割成单词 words = document.split() # 为每个单词生成一个键值对 for word in words: yield (word, 1) # Reduce阶段 def reduce_function(word, counts): # 对每个单词的计数进行求和 yield (word, sum(counts)) # 在实际的Hadoop环境中，这些函数会被提交给YARN进行分布式执行， # YARN会根据HDFS上的数据位置来调度任务到合适的节点上。 ``` 在这个例子中，MapReduce作业会利用HDFS来存储输入和输出数据，而YARN则负责调度和管理执行Map和Reduce任务所需的计算资源。