Hadoop框架中Mapreduce常见问题解析_import org.apache.hadoop.mapreduce.mapper引入报错-优快云博客

本文链接：https://blog.youkuaiyun.com/Dream_aju/article/details/120029725

本文深入解析了Hadoop MapReduce的工作原理，包括移动计算而非移动数据的概念、分而治之的策略以及输入分片的概念。讨论了分片与块的区别，以及如何合理选择HDFS块和分片的大小。同时，提出了一个统计部门职位工资之和的具体案例，要求实现特定的分区策略和自定义类型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述

MapReduce是一个运行在分布式文件系统上的一个并行计算框架。它的核心思想可以简单概述成一句话：移动计算而非移动数据，分而治之。

你怎么理解移动计算而不移动数据？

答：就是将写好的业务逻辑和mapreduce自带的一些组件打包成计算程序，移动到有数据存储的节点上，利用多节点的CPU的并发能力，提高计算效率。
mapreduce是分为两个阶段，map阶段处理的是块文件（原始文件），计算后的结果存储到本地磁盘；reducer阶段要跨节点fetch属于自己要处理的数据，计算后的结果存储到fdfs上。（也可以存储到客户端所在的本地磁盘）

怎么理解分而治之？

怎么理解输入分片这个概念？

答：分片就是Mapreduce在进行作业提交时，会预先对将要分析的原始数据进行划分处理，形成一个个等长的逻辑数据对象。也称“分片”；

Mapreduce里的什么会用到输入分片？

答：MapReduce为每一个分片构造一个单独的MapTask，并由该任务来运行用户自定义的map方法，从而处理分片中的每一条记录。

分片与块的区别是什么？

答：
1. 分片是逻辑数据，记录的是要处理的物理块信息而已；
2. 块是物理的，是真实存储在文件系统上的原始数据文件。

520M的一个文件，分多少个块文件，有多少个分片？

答： 520/128>4 所分五个块文件合适
128 * 4 = 512 最后剩余8 分4个片合适