storm有7种流分组策略:
1:shuffle Grouping
随机分组;将tuple随机分配到bolt中,能够保证各task中处理的数据均衡;
2:Fields Grouping
按字段分组; 根据设定的字段相同值得tuple被分配到同一个bolt进行处理;
举例:builder.setBolt("mybolt", new MyStoreBolt(),5).fieldsGrouping("checkBolt",new Fields("uid"));
说明:该bolt由5个任务task执行,相同uid的元组tuple被分配到同一个task进行处理;该task接收的元祖字段是mybolt发射出的字段信息,不受uid分组的影响。
该分组不仅方便统计而且还可以通过该方式保证相同uid的数据保存不重复(uid信息写入数据库中唯一);
3:All Grouping
广播发送:所有bolt都可以收到该tuple
4:Global Grouping
全局分组:tuple被发送给bolt的同一个并且最小task_id的任务处理,实现事务性的topology
5:None Grouping
不分组:效果等同于shuffle Grouping.
6:Direct Grouping
直接分组:由tuple的发射单元直接决定tuple将发射给那个bolt,一般情况下是由接收tuple的bolt决定接收哪个bolt发射的Tuple。这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的taskid (OutputCollector.emit方法也会返回taskid)。
7:Local or shuffle grouping 本地或者随机分组