
flume
lianchaozhao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
flume拦截器分类使用和自定义拦截器
在数据采集过程中,我们经常需要设计拦截器,将不合适的数据,过滤掉,减少网络传输的压力。 常用的过滤器,自己分为几类 第一类:添加额为数据的拦截器包含了时间戳拦截器、主机拦截器、静态拦截器 1、Timestamp Interceptor(时间戳拦截器) flume中一个最经常使用的拦截器 ,该拦截器的作用是将时间戳插入到flume的事件报头中。如果不使用任何拦截器,flume接受到的只有messag...原创 2020-03-11 14:16:49 · 465 阅读 · 0 评论 -
flume执行流程及源码解读
1、flume 指定配置文件启动 bin/flume-ng agent -c conf -f conf/LogDetailExpose4KafkaFlume.conf -n aApacheFlume --classpath /home/dmpflume-jar-with-dependencies.jar -Dflume.root.logger=INFO,console #注意:因为需要指定自己实现...原创 2019-12-30 17:37:30 · 966 阅读 · 0 评论 -
flume 数据放丢失保证
flume 数据不丢失保证: 1、但是根据Flume的架构原理,再采用FileChannel的Flume是不可能丢失数据的,因为其内部有完善的事务机制(ACID)。 Source到Channel是事务性的, Channel到Sink也是事务性的, 这两个环节都不可能丢失数据。 在采集阶段 flume 采取采用 TAILDIR 偏移量存储在: /var/log/flume-ng/taildir_po...原创 2019-11-22 18:40:04 · 1365 阅读 · 0 评论 -
flume集群实现高可用集群
本人采用双节点的方式 其中两个节点都存活时 :两个节点做负载均衡使用 其中一个节点宕机 : 一个节点承担从前两个节点的流量 (做到高可用) channel 直接对接kafka 节省资源 其中配置为 (两份) tier1.sources = source1 #对应sources名字 tier1.channels = kafka-mobile-channel #对应channel 名...原创 2020-08-05 15:56:13 · 381 阅读 · 0 评论 -
spark-streaming 获取 flume 传递的header
环境: cm 5.13.0 flume 和kafka 为 cm 自动安装 spark-streaming 通过远程安装的版本为 2.2.0 flume+kafka+spark-streaming,应该说这一套架构已经成为流式计算的标配了。 具体配置为 采集数据的flume agent collector.sources = taildir-source collector.channels = f...原创 2019-01-21 15:20:58 · 712 阅读 · 2 评论