MapReduce 中的 InputSplit

@SmartSi

已于 2025-07-19 23:10:42 修改

阅读量2.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Hadoop 文章标签： Block InputSplit Hadoop MapReduce

于 2017-01-11 16:04:21 首次发布

本文链接：https://blog.youkuaiyun.com/SunnyYoona/article/details/54344488

Hadoop 专栏收录该内容

45 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

MapReduce处理数据时，数据块（Block）按照预设大小划分，但记录可能跨块。InputSplit作为逻辑数据单位，确保Mapper能处理跨越块边界的记录。InputSplit包含块位置和不完整记录的结束信息，确保Mapper读取完整逻辑记录。

Hadoop 初学者经常会有这样两个问题：

Hadoop 的一个 `Block` 默认是 128M(或者64M)，那么对于一条记录来说，会不会造成一条记录被分到两个 `Block` 中？
从 `Block` 中读取数据进行切分时，会不会造成一条记录被分到两个 `InputSplit` 中？

对于上面的两个问题，首先要明确两个概念：`Block` 和 `InputSplit`。在 Hadoop 中，文件由一个一个的记录组成，最终由 Mapper 任务一个一个的处理。例如，示例数据集包含有关 1987 至 2008 年间美国境内已完成航班的信息。如果要下载数据集可以打开如下网址： http://stat-computing.org/dataexpo/2009/the-data.html 。每一年都会生成一个大文件（例如：2008年文件大小为108M），在每个文件中每单独的一行都代表一次航班信息。换句话说，一行代表一个记录。`HDFS` 以固定大小的 `Block` 为基本单位存储数据，而对于 `MapReduce` 而言，其处理单位是 `InputSplit`。

1. Block

`Block` 是以 `block size` 进行划分数据。因此，如果集群的 `block size` 为 128MB，则数据集的每个 `Block` 将为 128MB，除非最后一个 `Block` 小于 `block size`（文件大小不能被 block size 完全整除）。例如下图中文件大小为 513 MB，513%128=1，最后一个 `Block` `e` 小于 `block size`，大小为 1MB。因此，`Block` 是以 `block size`