五数据组织模式 3）分箱 & 代码

最新推荐文章于 2025-10-27 13:39:23 发布

原创最新推荐文章于 2025-10-27 13:39:23 发布 · 123 阅读

CC 4.0 BY-SA版权

那些你很早爬起来努力的时光，那些你熬夜训练的日子，那些你觉得太累了不想努力并强迫自己但仍咬牙坚持的时光，那才是追寻梦想的意义，那就是梦想力量。但是真正的梦想不是到达终点，而是享受旅途。如果你们能够理解这个道理。你会发现，在努力的过程中。你的梦想或许会实现，或许不会。但总有一些更伟大的事情会随之而来。

文章标签：

#java #大数据 #spark #hadoop #mapreduce

本文深入探讨了分箱技术在数据集处理中的应用，详细阐述了分箱与分区的区别，以及如何利用Map阶段实现数据高效分类。通过引入MultipleOutputs类，实现数据输出到多个文件，避免了不必要的reduce阶段工作，提升了性能与可扩展性。重点分析了该模式在无需排序、混排及reduce操作的情况下，如何在本地数据上执行任务，确保了作业的高效率与稳定性。

分箱目的：

将数据集中的每条记录都归档到一个或多个文件中。

分箱与分区：

分享模式与分区模式很类似。主要区别在于分箱使用 Map 构建而分区需要用到 MapReduce 进行分区。

分箱好处是减少 reduce 阶段的工作量

结构:

Map阶段重写 setup方法。使用了 MultipleOutput 类，通过该类将作业输出到多个不同的文件中。

对每条记录遍历每个分箱的条件。如果符合就会发送到该箱。

该模式未用到 combiner、partitioner、 reduce。

性能分析：

和其他只有 map 任务的作业一样，该模式具有相同的可扩展性和性能特性，该模式不需要执行排序、混排及reduce，并且大部分都是在本地数据上执行。

关键代码：


    
jar包：
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;
重写 map 类的 setup方法。  给 MultipleOutputs 对象赋值。
 @Override
        public void setup(Context context) throws IOException, InterruptedException {
最后就是 mos 对象的各种输出分箱。  至此 结束