Flume TailDirSource问题

本文探讨Flume tailDirSource在日志文件名变更时出现的日志丢失问题及解决方案。通过对源码的理解与修改,避免因文件路径变化而将已存在的日志文件误判为新文件,从而实现日志的连续读取。

在使用Flume的tailDirSource时,发现每天凌晨log文件名切换时会丢失日志,查看源码发现,发现log文件名修改后不符合flume file group定义的正则表达式,导致改过名的日志文件不会再被flume读到;后来改了正则表达式,适应改名后的log文件,但发现改名后的log文件会被flume当成新文件,重新读一遍,再看源码,发现tailDirSource通过inode和filePath两个维度来判断是否为新文件,log改名后,filePath不一样,就被tailDirSource视为新的文件,重新读一遍,好了,看下源码怎么修改?

flume-taildir-source工程ReliableTaildirEventReader.java 247行

if (tf == null || !tf.getPath().equals(f.getAbsolutePath())) {
    ...
}

!tf.getPath().equals(f.getAbsolutePath()) 这个比较filePath的代码去掉即可!

### 配置 Flume TailDirSource #### 一、理解TailDirSource的工作原理 TailDirSource 是一种用于监控多个文件并实时读取新增内容的数据源。它能够通过指定路径和正则表达式来识别目标文件,并持续跟踪这些文件的新数据,适用于日志文件或其他不断更新的文本文件流处理场景[^2]。 #### 二、创建Flume配置文件 为了设置TailDirSource,在`taildir-hdfs.conf`这样的配置文件中定义相应的参数是非常重要的。下面是一个简单的例子: ```properties # 定义Agent名称及其组件类型 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 设置source为TailDirSource a1.sources.r1.type = TAILDIR a1.sources.r1.positionFile = /path/to/position/file # 记录每个被监视文件当前读取位置的状态文件 a1.sources.r1.filegroups = f1 a1.sources.r1.filegroups.f1 = /var/log/test1/\d{8}/.*\.log$ # 使用正则表达式匹配要监听的日志文件路径模式;这里假设日期格式为YYYYMMDD形式存放在test1子目录下的所有.log结尾文件都会被捕获 # 可选属性:忽略已经存在的旧记录,默认false表示不跳过现有内容而从头开始读取 #a1.sources.r1.ignoreExisting = true # Sink部分可以根据实际需求调整,比如发送至HDFS等存储系统 a1.sinks.k1.type = hdfs a1.sinks.k1.hdfs.path = hdfs://namenode:8020/user/flume/taildir_data/ a1.sinks.k1.hdfs.filePrefix = logs- a1.sinks.k1.hdfs.round = true a1.sinks.k1.hdfs.roundValue = 10 a1.sinks.k1.hdfs.roundUnit = minute # Channel连接source与sink a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 # 绑定source, sink 和 channel a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 ``` 上述配置展示了如何利用TailDirSource配合其他组件完成基本的任务设定,其中特别注意的是对于filegroups以及其对应的pattern定义,这决定了哪些文件会被纳入到监控范围内[^1]。 #### 三、部署前准备事项 确保所有的依赖库都已正确安装于集群环境中,特别是当自定义拦截器或者其他扩展功能时可能需要用到额外的JAR包。如果是在Cloudera Manager管理的环境下,则应该按照官方指导将必要的资源放置在适当的位置,例如 `/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib/flume-ng/lib/` 下面[^3]。
评论 5
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值