随机分组(Shuffle Grouping)是最常用的流分组方式,它随机地分发元组到Bolt上的任务,这样能保证每个任务得到相同数量的元组。将流分组定义为混排。这种混排分组意味着来自Spout的输入将混排,或随机分发给此Bolt中的任务。shuffle grouping对各个task的tuple分配的比较均匀。

随机分组执行原子操作,这是非常有用的,例如数学运算。但是,如果操作不能被随机分发的话,应该考虑使用其他的分组方式,例如,在单词统计(WordCount)例子中,需要计算单词,就不适合使用随机分组。
使用PrintWriterToplogy 示例


PrintBot 4个并行度,不同线程Executor处理Print 任务


本文介绍了随机分组(ShuffleGrouping)的概念及其在流处理系统中的应用。随机分组能够确保每个任务接收到等量的数据元组,适用于需要均匀负载的任务场景。然而,对于需要特定数据集的操作,如单词计数,则不推荐使用随机分组。
444

被折叠的 条评论
为什么被折叠?



