前言
整理了一下目前常用的hadoop组件,后续将会对这些组件的具体应用场景和使用细节进行展开分析。如果大家发现有更好的建议欢迎大家在下方留言。
生态圈

数据存储:HDFS
HDFS,它是 Hadoop 技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数据分散存储,一个文件存储在 HDFS 上时会被分成若干个数据块,每个数据块分别存储在不同的服务器上。

如上图:
- NameNode:HDFS管理节点,存储元数据,同时负责读,写调度和存储分配。
- DataNode:数据存储节点,用来存储数据。在DataNode上的每个数据块会根据设置的副本数进行分级复制,保证同一个文件的每个数据块副本都不在同一台机器上。
数据分析:MapReduce
mapreduce是分布式计算模型,离线计算。mapreduce的发展已经经过了15个年头。在大数据的今天,数据量都在PB甚至EB级别,对数据分析效率有了更高的要求。于是,第二代计算模型产生了,比如Tez和Spark。它们大量使用内存,灵活的数据交换,更少的磁盘读写来提高分析效率。
资源管理:Yarn
在Yarn中,支持CPU和内存两种资源管理,资源管理由ResourceManager(RM)、ApplicationMaster(AM)和NodeManager(NM)共同完

本文介绍了Hadoop生态圈中的关键组件,包括数据存储的HDFS、数据分析的MapReduce、资源管理的Yarn、内存计算的Spark、数据仓库Hive、列存储数据库Hbase、工作流调度器Oozie、数据导入工具Sqoop和Pig、日志收集的Flume以及消息队列Kafka。此外,还提到了大数据运维工具Ambari,用于自动化部署和监控Hadoop组件。
最低0.47元/天 解锁文章
1458

被折叠的 条评论
为什么被折叠?



