最多总共可能发生四次排序。
1.Map阶段
环形缓冲区:当缓冲区的数据达到阈值后,对缓冲区数据进行一次快速排序,再溢写到磁盘。
溢写到磁盘后:当数据MapTask处理完毕后,所有文件进行归并排序。
2.Reduce阶段
按照指定分区读取到Reduce缓冲中(不够则落盘):磁盘上文件数据达到一定阈值,进行一次归并排序以生成更大的文件。
Reduce Task前分组排序:当所有文件拷贝完毕后,Reduce Task统一对内存和磁盘上所有数据进行一次归并排序。
MapReduce中一共发生多少次排序?
于 2023-04-12 20:31:13 首次发布