Hadoop框架中Mapreduce常见问题解析

本文深入解析了Hadoop MapReduce的工作原理,包括移动计算而非移动数据的概念、分而治之的策略以及输入分片的概念。讨论了分片与块的区别,以及如何合理选择HDFS块和分片的大小。同时,提出了一个统计部门职位工资之和的具体案例,要求实现特定的分区策略和自定义类型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题描述

MapReduce是一个运行在分布式文件系统上的一个并行计算框架。它的核心思想可以简单概述成一句话:移动计算而非移动数据,分而治之。

你怎么理解移动计算而不移动数据?

答:就是将写好的业务逻辑和mapreduce自带的一些组件打包成计算程序,移动到有数据存储的节点上,利用多节点的CPU的并发能力,提高计算效率。
    mapreduce是分为两个阶段,map阶段处理的是块文件(原始文件),计算后的结果存储到本地磁盘;reducer阶段要跨节点fetch属于自己要处理的数据,计算后的结果存储到fdfs上。(也可以存储到客户端所在的本地磁盘)

怎么理解分而治之?

怎么理解输入分片这个概念?

答:分片就是Mapreduce在进行作业提交时,会预先对将要分析的原始数据进行划分处理,形成一个个等长的逻辑数据对象。也称“分片”;

Mapreduce里的什么会用到输入分片?

答:MapReduce为每一个分片构造一个单独的MapTask,并由该任务来运行用户自定义的map方法,从而处理分片中的每一条记录。

分片与块的区别是什么?

答:
1. 分片是逻辑数据,记录的是要处理的物理块信息而已;
2. 块是物理的,是真实存储在文件系统上的原始数据文件。

520M的一个文件,分多少个块文件,有多少个分片?

答: 520/128>4 所分五个块文件合适
    128 * 4 = 512 最后剩余8 分4个片合适

hdfs的块大小如何选择,请说明理由?

答:
条件1. 尽可能的减少磁盘的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值