
flume
weixin_43866709
The best or nothing
展开
-
flume数据采集架构
在日常生产环境中,如果想要做数据采集基本上都要用到flume,现在就记录一下flume在整个项目中的架构。 先简单说一下这个项目,从微信小程序中记录用户数据,项目后台程序使用springBoot编写,部署在服务器上,使用Nginx实现负载均衡,然后要计算实时指标和离线指标。 Nginx服务器中产生的数据直接写入到kafka集群中,用于sparkStreaming进行实时指标的计算,这时Nginx服...原创 2019-05-14 11:14:48 · 824 阅读 · 0 评论 -
flume--KafkaChannel的使用
一.为什么使用KafkaChannel? 在使用flume对接Kafka时,我们往往使用TailFileSource–>MemoryChannel–>KafkaSink的这种方式,然后将数据输送到Kafka集群中。如图所示: 但是这种方式有弊端: 1.TailFileSource只能监听一个文件 2.MemoryChannel数据会有堆积,内存可能溢出(而FileChannel又比较...原创 2019-05-08 20:19:42 · 5164 阅读 · 6 评论 -
flume--自定义可记录偏移量的TailFileSource
使用flume实时采集Nginx产生的log数据时,如果机器宕机了,数据就会丢失,而且会重复读取数据,那么避免这种情况的发生,我们就要自定义一个可以记录偏移量的Source。 这里使用TailFileSource,一次监听一个文件。 代码如下:(根据execSource源码编写) package cn.edu360.flume.source; import org.apache.commons...原创 2019-05-06 11:14:23 · 685 阅读 · 0 评论