Hadoop生态系统的组件包括:
- HDFS:分布式文件系统
- YARN:资源管理和调度
- MapReduce:并行计算框架
- HBase:可扩展的分布式NoSQL数据库
- Hive:适合做ETL的大数据仓库,支持SQL查询语言,基于MapReduce
- Impala:新型查询系统,提供交互式的SQL查询
- ZooKeeper:分布式应用程序协调服务
- Spark:分布式内存计算引擎,支持ETL、机器学习、Streaming和图计算
- Flume:分布式日志收集、聚合系统
-
- Pig:大规模数据分析平台
- PrestoDB:大数据的分布式 SQL 查询引擎
- Phoenix:是Hbase的 SQL 驱动
- Drill :加快Hadoop数据查询的工具