MapReduce大数据处理中的分区与排序技巧
1. 处理哈希分区器产生的倾斜问题
1.1 哈希分区器倾斜现象
在MapReduce中,默认的分区器是哈希分区器。它会对每个map输出键进行哈希计算,并对reducer的数量取模,以此来确定该键要发送到哪个reducer。通常情况下,哈希分区器表现良好,但某些数据集可能会导致部分reducer过载。这是因为大量的键经过哈希计算后被分配到了同一个reducer,从而出现少数reducer处理时间远远长于大多数reducer的情况。通过查看这些落后reducer的计数器,会发现发送给它们的组(唯一键)数量比其他已完成的reducer要多得多。
1.2 区分高基数键和哈希分区器导致的倾斜
可以利用MapReduce的reducer计数器来识别作业中的数据倾斜类型。如果是哈希分区器性能不佳导致的倾斜,发送到这些reducer的组(唯一键)数量会显著增多;而如果是高基数键导致的倾斜,所有reducer的组数量大致相等,但倾斜的reducer会有更多的记录。
1.3 问题与解决方案
- 问题 :Reduce端连接操作耗时过长,部分reducer的完成时间明显长于大多数reducer。
- 解决方案 :使用范围分区器,或者编写自定义分区器,将倾斜的键分配到一组预留的reducer中。
1.4 具体实现方式
1.4.1 范围分区
范围分区器会根据预定义的值范围来分配map输出,每个范围对应一个
超级会员免费看
订阅专栏 解锁全文
1541

被折叠的 条评论
为什么被折叠?



