初识Hadoop

本文详细介绍了数据存储分析中的关键概念,如Hadoop、HDFS、MapReduce等技术,以及它们在大数据处理中的作用。同时,文章还阐述了Hadoop生态圈内的各个组件,包括Pig、Hive、HBase、ZooKeeper、Sqoop等,以及它们如何共同协作,形成一个高效的大数据处理系统。
1.数据

2006年的数据量为0.18ZB(1ZB=1000 000PB=10^9TB),预测2011年数据量为1.8ZB(相当于全球60亿人每人一个300G容量的硬盘存储的容量)

2.数据存储分析

Hadoop提供了一个可靠的数据共享存储和分析系统,HDFS实现存储,MapReduce实现分析处理,HDFS和MapReduce是Hadoop的核心。

3.Apache Hadoop和Hadoop生态圈

Hadoop core

HDFS和MapReduce在技术上被称为ApacheHadoop的子项目“Hadoop core”,不过人们倾向于通俗的称为Hadoop

Pig

一种高级数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS的集群上。

Hive

一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。

HBase

一种模仿Google Bigtable的分布式的、面向列的数据库,使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。

ZooKeepe

一个分布式、可用性高的协调服务,提供分布式锁之类的基本服务用于构建分布式应用。

Sqoop

在关系型数据库和HDFS之间高效传输数据的工具。

Chukwa

一种用于管理大型分布式系统的数据收集系统


项目

说明

Core/Common

主要包括FileSystem、RPC和持久化数据结构

Avro

一种支持高效、跨语言 RPC以及永久存储数据的序列化系统

HDFS

Hadoop分布式文件系统

MapReduce

一种编程模型,用于大规模数据集的并行运算

Hive

由Facebook设计的一个建立在Hadoop基础上的数据仓库

Pig

由Yahoo!提供的一个对大型数据集进行分析和评估的平台

Sqoop

在RDBMS和HDFS之间高效传输数据的工具

HBase

一个分布式的、面向列的开源数据库

ZooKeeper

一个为分布式应用所设计的开源协调服务

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值