hadoop(HDFS、MapReduce)

本文详细介绍了Hadoop的三大核心组件:HDFS分布式存储系统、MapReduce分布式计算系统及YARN资源调度系统。HDFS通过分块存储和副本机制提供高可靠的数据存储,MapReduce采用“分而治之”策略实现大规模数据的并行处理,YARN则负责资源的统一管理和调度。

hadoop三大核心组件:

1、HDFS:分布式存储系统(实时key-value查询hbase、HiveQL离线统计分析hive都是基于此开发的技术)

2、MapReduce:分布式计算系统

3、YARN: hadoop 的资源调度系统

 

1、在HDFS上存储文件的时候,文件会按照配置的大小进行分块,每个分块会按照设置的副本的数目,在hdfs上面存储。HDFS不支持文件的修改,因为是分块储存,且有多个副本,修改的代价太高,直接删除重建吧。

 

2、MapReduce采用“分而治之”策略,map(映射)+ reduce (归约),输入数据自动分割为M个数据片段的集合,这些输入的数据片段能够在不同的机器上并行map处理,使用分区函数将map调用产生的中间key值分成R个不同分区,这些中间数据在多台机器上调用Reduce处理。最终输出写入 HDFS。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值