
flume
weixin_43866709
The best or nothing
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
flume--自定义可记录偏移量的TailFileSource
使用flume实时采集Nginx产生的log数据时,如果机器宕机了,数据就会丢失,而且会重复读取数据,那么避免这种情况的发生,我们就要自定义一个可以记录偏移量的Source。这里使用TailFileSource,一次监听一个文件。代码如下:(根据execSource源码编写)package cn.edu360.flume.source;import org.apache.commons...原创 2019-05-06 11:14:23 · 701 阅读 · 0 评论 -
flume--KafkaChannel的使用
一.为什么使用KafkaChannel?在使用flume对接Kafka时,我们往往使用TailFileSource–>MemoryChannel–>KafkaSink的这种方式,然后将数据输送到Kafka集群中。如图所示:但是这种方式有弊端:1.TailFileSource只能监听一个文件2.MemoryChannel数据会有堆积,内存可能溢出(而FileChannel又比较...原创 2019-05-08 20:19:42 · 5183 阅读 · 6 评论 -
flume数据采集架构
在日常生产环境中,如果想要做数据采集基本上都要用到flume,现在就记录一下flume在整个项目中的架构。先简单说一下这个项目,从微信小程序中记录用户数据,项目后台程序使用springBoot编写,部署在服务器上,使用Nginx实现负载均衡,然后要计算实时指标和离线指标。Nginx服务器中产生的数据直接写入到kafka集群中,用于sparkStreaming进行实时指标的计算,这时Nginx服...原创 2019-05-14 11:14:48 · 834 阅读 · 0 评论