循序渐进大数据组件之--Hadoop

这篇博客介绍了Hadoop的基础知识,包括HDFS的存储机制和MapReduce计算框架。重点讲解了WordCount示例,从mapper到reducer的流程,并提到了combiner的作用,如减少网络IO和数据倾斜。最后,对WordCountDriver主类的关键部分进行了说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近学习了Hadoop,做一些小的总结:

hadoop 两大核心 

1.hdfs : 用于存储数据

1.1 分块 block 默认128mb,
1.2 不足128mb的数据,只占其本身的大小,128mb就是是一个逻辑概念
1.3 block会默认复制三份,用来防止 数据丢失(冗余备份)。
1.4 hdfs不适用存大量小文件,元数据信息过多导致NameNode压力增加
1.5NameNode:管理dataNode 读写数据  
负责元数据管理,当client端 要读取或者写入数据,会首先跟NN通信,然后NN指定你去某个dataNode上去读写数据。

dataNode:它负责管理该物理机上的存储内容,包括读写。

2.mapreduce: 计算数据

3.hadoop的核心是mapreduce框架,shuffle 又是Mapreduce的核心,map  到 reduce

mapper负责将相同的key,发到指定reduce中。reduce负责后面的逻辑计算。

4.mapper的进程数量 : 这个跟inputsplit有关

reducer的进程数量:有多少个partition 就有多少个redcuer

5.如何写mr

a.

ma

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Alex_81D

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值