【MapReduce】03.MapReduce框架原理

目录

1.InputFormat数据输入

1.1.切片与MapTask并行度决定机制

1.2.Job提交流程源码和切片源码

1.3.FileInputFormat切片机制

1.4.TextInputFormat

1.5.CombineTextInputFormat切片机制

1.6.CombineTextInputFormat


1.InputFormat数据输入

1.1.切片与MapTask并行度决定机制

        MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。

MapTask并行度决定机制

        数据块:Block是HDFS物理上的数据分割,数据块是HDFS存储数据单位

        数据切片:数据切片是MapReduce程序计算输入数据的单位,一个切片会对应一个MapTask(逻辑切分,并非物理切分)

        1.一个Job的Map阶段并行度由客户端在提交Job时的切片数决定

        2.每一个Split切片分配一个MapTask并行实例处理

        3.默认情况下,切片大小=BlockSize

        4.切片时不考虑数据集整体,而是逐个针对每个文件单独切片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值