Hadoop基础

最新推荐文章于 2025-05-03 06:00:00 发布

比贱啊

最新推荐文章于 2025-05-03 06:00:00 发布

阅读量162

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop

本文链接：https://blog.youkuaiyun.com/weixin_43999780/article/details/97040665

5 篇文章

订阅专栏

本文介绍了Hadoop架构及其核心组件HDFS、YARN和MapReduce的功能，并探讨了Hadoop的不同运行模式，包括本地模式、伪分布式模式和完全分布式模式。此外，还详细解释了HDFS的存储机制和主从架构，以及在实际部署中需要注意的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

人们常说的Hadoop狭义上说的是Hadoop架构，广义上是指以Hadoop为核心的生态圈
官网：hadoop.apache.org
版本：

hadoop架构主要由三个节点组成:

HDFS:分布式文件存储
YARN:分布式资源分配
MapReduce:分布式计算
模式
Local (Standalone) Mode 0进程 1台 (基本不会用)
Pseudo-Distributed Mode 伪分布式多个进程 1台(测试用)
Fully-Distributed Mode 集群多个进程 n台(生产用)
注意,配置文件中不要放IP,用hostname配置,hosts文件先配置好
血淋淋的案例:因公司机房搬迁,IP必须变更,只能挨个改配置文件
HDFS架构主从架构
NameNode:主节点,主要负责文件读写,元数据的存储(只有一个)
SecondaryNameNode:负责同步Namenode上的元数据(防止Namenode挂了)
DataNode:负责文件存储,具体的读写
HDFS存储机制
在HDFS中文件是以块存储,hadoop2.X中每128M一个块,默认存储三份,分别放在不同的DataNode上,1.X中默认是64M,当然可以调块的大小,根据自己公司的需求来设置(以260M的文件,块大小128M为例,就会存到三个数据块中,每个数据块都是一个文件,会放9块)
DataNode会定时向NameNode发送心跳报告,如果发送的文件信息不一,NameNode会默认该块以损坏,会删除并从别的节点复制一份