1.数据
2006年的数据量为0.18ZB(1ZB=1000 000PB=10^9TB),预测2011年数据量为1.8ZB(相当于全球60亿人每人一个300G容量的硬盘存储的容量)
2.数据存储分析
Hadoop提供了一个可靠的数据共享存储和分析系统,HDFS实现存储,MapReduce实现分析处理,HDFS和MapReduce是Hadoop的核心。
3.Apache Hadoop和Hadoop生态圈
Hadoop core
HDFS和MapReduce在技术上被称为ApacheHadoop的子项目“Hadoop core”,不过人们倾向于通俗的称为Hadoop
Pig
一种高级数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS的集群上。
Hive
一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。
HBase
一种模仿Google Bigtable的分布式的、面向列的数据库,使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。
ZooKeepe
一个分布式、可用性高的协调服务,提供分布式锁之类的基本服务用于构建分布式应用。
Sqoop
在关系型数据库和HDFS之间高效传输数据的工具。
Chukwa
一种用于管理大型分布式系统的数据收集系统
项目 |
说明 |
Core/Common |
主要包括FileSystem、RPC和持久化数据结构 |
Avro |
一种支持高效、跨语言 RPC以及永久存储数据的序列化系统 |
HDFS |
Hadoop分布式文件系统 |
MapReduce |
一种编程模型,用于大规模数据集的并行运算 |
Hive |
由Facebook设计的一个建立在Hadoop基础上的数据仓库 |
Pig |
由Yahoo!提供的一个对大型数据集进行分析和评估的平台 |
Sqoop |
在RDBMS和HDFS之间高效传输数据的工具 |
HBase |
一个分布式的、面向列的开源数据库 |
ZooKeeper |
一个为分布式应用所设计的开源协调服务 |