jdk
hadoop
zookeeeper
kafka
flume
strom
redis
nginx
hive
spark
sqoop
hbase
HDFS :分布式文件系统
YARN:分布式资源管理
MapReduce:离线计算框架
Spark:内存计算框架
Hive:数据仓库 (HQL),提供一种类SQL的数据处理方法
Pig:一种数据流语言,用来快速轻松的处理巨大的数据
HBase:分布式数据库
Oozie:任务调度
Sqoop:数据转化工具
Flume:实时日志收集工具
Zookeeper:分布式服务框架
Cloudera Manager:一个Web界面的Hadoop管理系统来进行Hadoop相关服务的安装、配置和监控
Hue :开源的Apache Hadoop UI系统 (Python Web框架Django实现)
下载cdh版会减少冲突
本文全面介绍了大数据生态中的关键组件,包括Hadoop、Spark、Hive等框架,以及HDFS、YARN、MapReduce等核心服务。同时涵盖了数据仓库、实时处理、数据采集等多个方面,为读者提供了从数据存储到分析处理的全链条知识。
2271

被折叠的 条评论
为什么被折叠?



