hadoop三大核心组件:
1、HDFS:分布式存储系统(实时key-value查询hbase、HiveQL离线统计分析hive都是基于此开发的技术)
2、MapReduce:分布式计算系统
3、YARN: hadoop 的资源调度系统
1、在HDFS上存储文件的时候,文件会按照配置的大小进行分块,每个分块会按照设置的副本的数目,在hdfs上面存储。HDFS不支持文件的修改,因为是分块储存,且有多个副本,修改的代价太高,直接删除重建吧。
2、MapReduce采用“分而治之”策略,map(映射)+ reduce (归约),输入数据自动分割为M个数据片段的集合,这些输入的数据片段能够在不同的机器上并行map处理,使用分区函数将map调用产生的中间key值分成R个不同分区,这些中间数据在多台机器上调用Reduce处理。最终输出写入 HDFS。
本文详细介绍了Hadoop的三大核心组件:HDFS分布式存储系统、MapReduce分布式计算系统及YARN资源调度系统。HDFS通过分块存储和副本机制提供高可靠的数据存储,MapReduce采用“分而治之”策略实现大规模数据的并行处理,YARN则负责资源的统一管理和调度。
626

被折叠的 条评论
为什么被折叠?



