任务21:21_Flume高级_Channel选择器副本机制(需求分析)

该博客探讨了在Flume中实现多路复用和监控文件变动的方法,强调了使用taildir而非execsource的优先性。在确保HDFS和本地磁盘数据一致性的情况下,通过复制选择器配置,实现Hive日志的实时更新同步到HDFS并备份到本地。博客指出,为确保完整数据传输,必须使用多个channel,而非一个channel对应多个sink。此外,还提到了AvroSink和RollSink在数据流处理中的应用。

在这里插入图片描述
这里暂时还演示不了多路复用,因为多路复用需要结合拦截器一起。
所以多路服用的案例放到了自定义拦截器那里
在这里插入图片描述
监控文件的变动使用exec source和taildir均可。
但是优先使用taildir,毕竟挂了还可以再用。
监控文件的变动,将内容传给flume-2
flume1给flume2使用阿波罗sink和source
在这里插入图片描述
看avro sink /source 和 roll sink
最终的目的把hive实时更新的日志数据上传到hdfs,同时在本地还做一个备份。
在这里插入图片描述
在这里插入图片描述
采集hive数据的flume1使用两个channel,两个sink
在这里插入图片描述
为啥这里不使用一个channel对应两个sink呢
这里不能使用一个channel对应两个sink的。
如果用一个channel那么中间用的就是一个sink组,sink组里面没有什么副本机制的,只有默认,故障转移和负载均衡三种。故障转移:数据只会往一个sink里面发
负载均衡:数据是一人一条发,就不是完整的数据了。
这里我们需要达到的目的是:最终hdfs和本地磁盘都有hive日志。
只能多个channel。一定要。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
中间使用 复制选择器。hdfs的数据和本地文件的数据必须保持一致。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值