Hadoop入门

最新推荐文章于 2025-12-19 18:54:08 发布

原创最新推荐文章于 2025-12-19 18:54:08 发布 · 1.8k 阅读

CC 4.0 BY-SA版权

文章标签：

本文深入介绍了Hadoop的架构和工作原理，包括Hadoop分布式文件系统（HDFS）、资源管理器YARN、分布式计算框架MapReduce等核心组件。探讨了Hadoop在大规模数据处理中的优势，如高容错性和扩展性，同时也分析了其在处理小文件和频繁写入场景的局限。

CrudboyIsMe

狭义上讲，Hadoop是一个Apache开源组织的一个分布式计算开源框架，提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架。
广义上说，Hadoop是指整个Hadoop家族，包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等等。这些家族成员基本都是基于Hadoop的分布式而衍生出的成员。

介绍Hadoop之前，我建议你们安装一个…

Hadoop可运行于一般的商用服务器上，具有高容错、高可靠性、高扩展性等特点。特别适合写一次，读多次的场景

适合：

不适合：

其中：

Hadoop的内部各节点采用Master-Worker架构

hdfs-architecture

NameNode

存储文件的metadata，运行时所有数据都保存到内存，整个HDFS可存储的文件数受限于NameNode的内存大小
一个Block在NameNode中对应一条记录（一般一个block的NameNode占用150字节），如果是大量的小文件，会消耗大量内存。同时map task的数量是由splits来决定的，所以用MapReduce处理大量的小文件时，就会产生过多的map task，线程管理开销将会增加作业时间。处理大量小文件的速度远远小于处理同等大小的大文件的速度。因此Hadoop建议存储大文件
数据会定时保存到本地磁盘，但不保存block的位置信息，而是由DataNode注册时上报和运行时维护（NameNode中与DataNode相关的信息并不保存到NameNode的文件系统中，而是NameNode每次重启后，动态重建）
NameNode失效则整个HDFS都失效了，所以要保证NameNode的可用性

Secondary NameNode