《Hadoop实战》第一部分阅读笔记_头歌hadoop大数据入门实战第一章实践答案-优快云博客

本文介绍了Hadoop的基础概念，包括其作为一个开源框架的功能特点，MapReduce的工作原理，以及Hadoop系统的组成部分，如NameNode、DataNode、SecondaryNameNode、JobTracker和TaskTracker的作用。此外还涉及了HDFS的基本操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop的一些基础概念。

Hadoop是一个开源的框架，可编写和运行分布式应用管理大规模数据。Hadoop强调把代码向数据迁移，而不是相反（SETI @ home），向外发展。

MapReduce的一个简单的例子就是，统计一组文档的每个单词的出现的次数。将文档分成好几个部分，然后给不同的计算机执行，分词。第二阶段，将它们分到不同的计算机上进行汇总处理。MapReduce执行分为两阶段，mapping和reducing。每阶段定义一个函数，成为mapper，reducer。在mapping阶段，获取输入数据，并将数据单元装入mapper。在reducing阶段，reducer处理来自mapper的所有输出，并给出最终结果。举例，mapper后，会出现很多（假设共5个）的<foo, 1>，将它们送给reducer，会合并成<foo, 5>。

当使用到多个reducer时，我们需要一种策略来决定应该把输出的键/值对给谁。比如<foo,1>给f开头的分区，<hoo>给h开头的分区。这里就需要Partitioner，重定向Mapper输出。如hash散列等的方式。在很多场景下，可以在mapper分发前，首先在本地进行一下“本地Reducer”。这时需要用到Combiner。如输出500次的<the, 1>，比不上输出一次的<the,500>。

接下来，看下Hadoop的构成。包括以下几种：

NameNode。Hadoop采用主从结构。分布式存储系统被称为Hadoop文件系统，即HDFS。NameNode位于HDFS的主端，指导从端的DataNode执行底层操作。NameNode是HDFS的书记员，跟踪文件如何被分割为文件块，而这些块又被哪些节点存储。驻留NameNode的节点唯一，不做其他工作。也带来一个负面影响——Hadoop集群的单点失效。

DataNode。每个从节点都会驻留一个DataNode守护进程，来执行分布式文件系统繁重的IO操作——将HDFS的文件读取或写入到本地的文件系统中。一个文件块会被存储多次，实现冗余备份。