四、Hadoop生态系统
除了核心组件外,hadoop还包括了许多构建在核心组件之上的工具和库,统称为Hadoop生态系统
Hadoop生态系统中的组件可以按照其功能进行分类,:
数据访问/处理组件(Apache Pig、Hive)
数据存储组件(Hbase)
监控、管理和协调组件(Zookeeper,Oozie,Ambari)
数据集成组件(sqoop,Flume)
五、Hadoop发行版
- CDH(Cloudera Data Platform)
- HDP(Hortonwork Data Platform)
- MapR
- Altiscale
- Amazon Elastic mapReduce
六、HDFS和数据格式
- Hadoop支持存储多种传统格式的文件,但是更倾向于一些特定的格式:
- 文本存储(csv,TSV,JSON,JavaScript等)
- Avro
- 序列文件
- 列式文件格式
- Parquet
- RCFile
- ORCFile

本文介绍了Hadoop及其生态系统中的关键组件,包括数据访问/处理工具如Apache Pig和Hive,数据存储解决方案HBase,以及监控和管理工具Zookeeper等。此外还概述了Hadoop支持的主要数据格式和几种流行的Hadoop发行版。

被折叠的 条评论
为什么被折叠?



