初始Hadoop

最新推荐文章于 2022-03-07 14:32:57 发布

原创最新推荐文章于 2022-03-07 14:32:57 发布 · 297 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop从入门到精通

Hadoop从入门到精通专栏收录该内容

6 篇文章

订阅专栏

1、什么是Hadoop

hadoop是一个开源软件框架（面向大数据处理），可编写和运行分布式应用处理大规模数据，hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的的性能，擅长离线数据分析（不是在生产系统上对数据进行实时处理，比如：把生产线上的数据导入到专门的数据存储环境）。

hadoop就是一个分布式计算的解决方案。

2、Hadoop的组成

hadoop是由分布式文件系统HDFS（Hadoop Distributed File System）和分布式计算框架MapReduce组成。

3、Hadoop生态系统

hadoop生态系统主要包括：Hive、Habase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Phoenix、Tez、Ambari，先介绍列入学习目标的Hive和Hbase。

Hive：用于Hadoop的一个数据仓库系统，他提供了类似于SQL的查询语言，通过使用该语言可以方便的进行数据汇总、特定查询以及分析存放在Hadoop兼容文件系统中的大数据。

Hbase：一种分布的、可伸缩的、大数据存储库，支持随机、实时读写访问。