Hadoop组成简介

最新推荐文章于 2021-08-13 09:10:49 发布

原创最新推荐文章于 2021-08-13 09:10:49 发布 · 145 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop #Mapreduce #HBase #Google #编程

hadoop 专栏收录该内容

31 篇文章

订阅专栏

Hadoop是Apache的一个项目（它是包含了很多子项目的集合，见下图）,它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Distributed File System),其存储和数据结构很类似Google的GFS.
HBase是Hadoop的其中一个子项目,它是基于Hadoop HDFS分布存储系统的一个Google BigTable开源实现。它在存储数据结构上并非关系型,而是疏松分布式的,持久并按多维排序并索引的map型,
Google BigTable的paper: http://labs.google.com/papers/bigtable-osdi06.pdf

目前，整个Hadoop家族由以下几个子项目组成：

Hadoop Common
Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。

Avro
Avro是doug cutting主持的RPC项目，有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑。

Chukwa
Chukwa是基于Hadoop的大集群监控系统，由yahoo贡献。

HBase
基于Hadoop Distributed File System，是一个开源的，基于列存储模型的分布式数据库。

HDFS
分布式文件系统

Hive
hive类似CloudBase，也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总，即席查询简单化。hive提供了一套QL的查询语言，以sql为基础，使用起来很方便。

MapReduce
实现了MapReduce编程框架

Pig
Pig是SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。

ZooKeeper
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。