初识Hadoop

最新推荐文章于 2025-12-06 15:58:48 发布

最新推荐文章于 2025-12-06 15:58:48 发布 · 56 阅读

文章标签：

本文详细介绍了数据存储分析中的关键概念，如Hadoop、HDFS、MapReduce等技术，以及它们在大数据处理中的作用。同时，文章还阐述了Hadoop生态圈内的各个组件，包括Pig、Hive、HBase、ZooKeeper、Sqoop等，以及它们如何共同协作，形成一个高效的大数据处理系统。

2006年的数据量为0.18ZB(1ZB=1000 000PB=10^9TB),预测2011年数据量为1.8ZB(相当于全球60亿人每人一个300G容量的硬盘存储的容量)

Hadoop提供了一个可靠的数据共享存储和分析系统，HDFS实现存储，MapReduce实现分析处理，HDFS和MapReduce是Hadoop的核心。

Hadoop core

HDFS和MapReduce在技术上被称为ApacheHadoop的子项目“Hadoop core”，不过人们倾向于通俗的称为Hadoop

Pig

一种高级数据流语言和运行环境，用以检索非常大的数据集，运行在MapReduce和HDFS的集群上。

Hive

一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据，并提供基于SQL的查询语言（由运行时引擎翻译成MapReduce作业）用以查询数据。

HBase

一种模仿Google Bigtable的分布式的、面向列的数据库，使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询（随机读取）。

ZooKeepe

一个分布式、可用性高的协调服务，提供分布式锁之类的基本服务用于构建分布式应用。

Sqoop

在关系型数据库和HDFS之间高效传输数据的工具。

Chukwa

一种用于管理大型分布式系统的数据收集系统

项目	说明
Core/Common	主要包括FileSystem、RPC和持久化数据结构
Avro	一种支持高效、跨语言 RPC以及永久存储数据的序列化系统
HDFS	Hadoop分布式文件系统
MapReduce	一种编程模型，用于大规模数据集的并行运算
Hive	由Facebook设计的一个建立在Hadoop基础上的数据仓库
Pig	由Yahoo!提供的一个对大型数据集进行分析和评估的平台
Sqoop	在RDBMS和HDFS之间高效传输数据的工具
HBase	一个分布式的、面向列的开源数据库
ZooKeeper	一个为分布式应用所设计的开源协调服务