1.数据
2006年的数据量为0.18ZB(1ZB=1000 000PB=10^9TB),预测2011年数据量为1.8ZB(相当于全球60亿人每人一个300G容量的硬盘存储的容量)
2.数据存储分析
Hadoop提供了一个可靠的数据共享存储和分析系统,HDFS实现存储,MapReduce实现分析处理,HDFS和MapReduce是Hadoop的核心。
3.Apache Hadoop和Hadoop生态圈
Hadoop core
HDFS和MapReduce在技术上被称为ApacheHadoop的子项目“Hadoop core”,不过人们倾向于通俗的称为Hadoop
Pig
一种高级数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS的集群上。
Hive
一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。
HBase
一种模仿Google Bigtable的分布式的、面向列的数据库,使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。
ZooKeepe
一个分布式、可用性高的协调服务,提供分布式锁之类的基本服务用于构建分布式应用。
Sqoop
在关系型数据库和HDFS之间高效传输数据的工具。
Chukwa
一种用于管理大型分布式系统的数据收集系统
|
项目 |
说明 |
|
Core/Common |
主要包括FileSystem、RPC和持久化数据结构 |
|
Avro |
一种支持高效、跨语言 RPC以及永久存储数据的序列化系统 |
|
HDFS |
Hadoop分布式文件系统 |
|
MapReduce |
一种编程模型,用于大规模数据集的并行运算 |
|
Hive |
由Facebook设计的一个建立在Hadoop基础上的数据仓库 |
|
Pig |
由Yahoo!提供的一个对大型数据集进行分析和评估的平台 |
|
Sqoop |
在RDBMS和HDFS之间高效传输数据的工具 |
|
HBase |
一个分布式的、面向列的开源数据库 |
|
ZooKeeper |
一个为分布式应用所设计的开源协调服务 |
本文详细介绍了数据存储分析中的关键概念,如Hadoop、HDFS、MapReduce等技术,以及它们在大数据处理中的作用。同时,文章还阐述了Hadoop生态圈内的各个组件,包括Pig、Hive、HBase、ZooKeeper、Sqoop等,以及它们如何共同协作,形成一个高效的大数据处理系统。
4791

被折叠的 条评论
为什么被折叠?



