简介
学习一种新的技术,在深入技术细节之前,首先需要了解这项技术的产生的背景,了解技术的总体框架。本文介绍了Hadoop基本概念、Hadoop重要模块、守护进程,以使读者能够对Hadoop有一个总体的认识。
Hadoop是什么
按照正式的定义,Hadoop是一个开源的框架,可编写和运行分布式应用,处理大规模数据。分布式计算是一个宽泛并且不断变化的领域,但Hadoop与众不同之处在于以下几点。
1. 方便-Hadoop运行在由一般商用机器构成的大型集群上,或者如亚马逊弹性计算云(EC2)等云计算服务之上。
2. 健壮-Hadoop致力于在一般商用硬件上运行,其架构假设硬件会频繁地出现失效。它可以从容地处理大多数此类故障。
3. 可扩展-Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。
4. 简单-Hadoop允许用户快速编写出高效的并行代码。
Hadoop的方便和简单让其在编写和运行大型分布式程序方面占尽优势。即使是在校的大学生也可以快速、廉价地建立自己的Hadoop集群。另一方面,它的健壮性和可扩展性又使它胜任雅虎和Facebook最严苛的工作。这些特性使Hadoop在学术界和工业界都大受欢迎。
Hadoop构造模块
Hadoop作为大数据处理的框架,能够以并行和分布式的方式,存储和处理大数据集。它主要包括两部分:HDFS实现了在集群中数据的存储,MapReduce实现数据的并行处理存储在HDFS中的数据。