flume在下图的架构中因sink宕机或其它原因导致sink不能消费可能会出现的问题
前提条件:channel为Memory Channel,Channel Selector为Replicating
一、架构图讲解
上图的架构是通过一个source把数据接过来,然后放到两个管道里面(同一份数据在每个管道里面都放一份Replicating Channel Selector),每个管道分别放到不同的sink里面。例如sink1放到hdfs里面用来离线计算,sink2放到kafka里面用来实时计算。
注:一个source放到多个channe里面需要用到Channel Selector,Channel Selector有两种方式:一种是Replicating ,另一种是Multiplexing,本篇博客我们讲解的是使用Replicating时产生的问题,Channel Selector不是本篇博客重点 ,在此不做过多讲解。
Replicating :会将source过来的events发往所有channel;
Multiplexing:可以选择每个event该发往哪些channel;
二、当某个sink不能消费时产生的影响
当某个sink不能消费时产生的影响和source先发往哪个channel里面有关系,下面分别介绍先发往不同的channel产生的影响
1、source先发channel1,再发channel2
当sink1不能消费时,sink1有可能会丢失内存中的数据,sink2不会丢失内存中的数据;但当channel1装满时,channel2也将不会再收到数据,导致sink2不能再继续接受数据。(通俗点说,当sink1因为某种原因不能消费时,sink1有可能会丢数,sink2不会丢数,但sink2也不能再收到数据了)
当sink2不能消费时,sink1不会丢失内存中的数据,但sink1有可能产生大量的重复数据,sink2有可能会丢失内存中的数据。
2、source先发channel2,再发channel1
当sink1不能消费时,sink1有可能会丢失内存中的数据,sink2不会丢数内存中的数据,但sink2有可能产生大量的重复数据。
当sink2不能消费时,sink1不会丢失内存中的数据,但sink1也不能继续接受数据了,sink2有可能会丢失内存中的数据。
三、总结
source先发往channel的sink不能正常消费数据时,该channel所对应的sink有可能会丢失内存中的数据;其它channel所对应的sink不会丢失内存中数据,但也无法 继续消费了。source后发往channel的sink不能正常消费时,该channel所对应的sink有可能会丢失内存中的数据;其它channel所对应的sink不会丢失内存中的数据, 但是有可能产生大量重复的数据。
注:source发往channel的顺序不可以指定。