为什么要设计Shuffle?
设计目的:为了实现对多台机器上的所有数据整体分组
什么时候会用到Shuffle?
负载均衡重新分区、全局排序、全局分组
为什么会有排序?
为了加快分组.
Map端Shuffle
Spill:内存,快排
Merge:磁盘,归并
Reduce端Shuffle
Merge:磁盘,归并,为了加快分组
MapReduce中只有聚合或者排序的需求,才让程序走Shuffle过程
为什么要设计Shuffle?
设计目的:为了实现对多台机器上的所有数据整体分组
什么时候会用到Shuffle?
负载均衡重新分区、全局排序、全局分组
为什么会有排序?
为了加快分组.
Map端Shuffle
Spill:内存,快排
Merge:磁盘,归并
Reduce端Shuffle
Merge:磁盘,归并,为了加快分组
MapReduce中只有聚合或者排序的需求,才让程序走Shuffle过程