Apache Hadoop 项目介绍

最新推荐文章于 2024-06-17 15:53:56 发布

最新推荐文章于 2024-06-17 15:53:56 发布 · 79 阅读

文章标签：

#Hadoop #Apache #项目管理 #HBase #Cassandra

Hadoop是一种开源软件框架，用于处理大规模数据集的分布式计算任务。它通过将处理任务分配到数据所在位置来提高效率，被广泛应用于Yahoo!、Facebook等公司的海量数据处理中。本文介绍了Hadoop的主要组成部分，如HDFS、MapReduce等，并列举了一些基于Hadoop的应用项目。

ApacheHadoop 项目开发的开源软件提供了可靠、可伸缩、分布式的计算。它是Google类似技术的开源版本。使用Hadoop的公司有Yahoo!, Facebook, Twitter, IBM等。

为什么要开发这样的系统呢？“When data exists in this quantity (terabit/day or petabit/day), one of the processing limitations is that it takes a significant amount of time to move the data. Apache Hadoop has emerged to address these concerns with its unique approach of moving the work to the data and not the other way around.” 简单翻译就是，当数据量非常庞大的时候，移动数据时间也非常庞大。为了处理这个挑战，Hadoop采用将数据处理工作移动到数据处而不是反向移动的方式。

Hadoop 包括如下的子项目：