flume学习笔记一

flume在下图的架构中因sink宕机或其它原因导致sink不能消费可能会出现的问题

前提条件:channel为Memory Channel,Channel Selector为Replicating 


一、架构图讲解

上图的架构是通过一个source把数据接过来,然后放到两个管道里面(同一份数据在每个管道里面都放一份Replicating Channel Selector),每个管道分别放到不同的sink里面。例如sink1放到hdfs里面用来离线计算,sink2放到kafka里面用来实时计算。

注:一个source放到多个channe里面需要用到Channel Selector,Channel Selector有两种方式:一种是Replicating ,另一种是Multiplexing,本篇博客我们讲解的是使用Replicating时产生的问题,Channel Selector不是本篇博客重点 ,在此不做过多讲解。

Replicating :会将source过来的events发往所有channel;

Multiplexing:可以选择每个event该发往哪些channel;

二、当某个sink不能消费时产生的影响

当某个sink不能消费时产生的影响和source先发往哪个channel里面有关系,下面分别介绍先发往不同的channel产生的影响

1、source先发channel1,再发channel2

当sink1不能消费时,sink1有可能会丢失内存中的数据,sink2不会丢失内存中的数据;但当channel1装满时,channel2也将不会再收到数据,导致sink2不能再继续接受数据。(通俗点说,当sink1因为某种原因不能消费时,sink1有可能会丢数,sink2不会丢数,但sink2也不能再收到数据了)

当sink2不能消费时,sink1不会丢失内存中的数据,但sink1有可能产生大量的重复数据,sink2有可能会丢失内存中的数据。

2、source先发channel2,再发channel1

当sink1不能消费时,sink1有可能会丢失内存中的数据,sink2不会丢数内存中的数据,但sink2有可能产生大量的重复数据。

当sink2不能消费时,sink1不会丢失内存中的数据,但sink1也不能继续接受数据了,sink2有可能会丢失内存中的数据。


三、总结

source先发往channel的sink不能正常消费数据时,该channel所对应的sink有可能会丢失内存中的数据;其它channel所对应的sink不会丢失内存中数据,但也无法 继续消费了。source后发往channel的sink不能正常消费时,该channel所对应的sink有可能会丢失内存中的数据;其它channel所对应的sink不会丢失内存中的数据, 但是有可能产生大量重复的数据。

注:source发往channel的顺序不可以指定。





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值