flume+kafka整合采集数据简单应用案例(详解)

该案例展示了如何使用Flume监控指定文件夹,当有新文件生成时,自动将文件内容发送到Kafka。配置包括监控目录、最大行长度、文件名模式匹配等,并通过拦截器处理首行。确保Kafka服务运行并创建主题后,启动Flume进行监控,文件拷贝至监控目录即可触发数据传输。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本案例使用flume监控源头文件夹下的文件,当有新的文件时,自动采集文件数据到kafka。

  • 此目录下,存放源文件 users.csv
[root@cy event_source]# pwd
/root/kb18/event_source

  •   如下命令查看文件前两行内容,可发现存在头文件
[root@cy event_source]#  head -n2 ./users.csv
user_id,locale,birthyear,gender,joinedAt,location,timezone
3197468391,id_ID,1993,male,2012-10-02T06:40:55.524Z,Medan  Indonesia,480
  • 如下命令查看文件行数
[root@cy event_source]# wc -l users.csv
38210 users.csv
  • 配置flume文件
#为source、channel、sink起名
users.sources = usersSource
users.channels = usersChannel
users.sinks = usersSink

#指定我们的source数据收集策略
users.sources.usersSource.type = spooldir
users.sources.usersSource.spoolDir = /opt/kb18tmp/sqooplog/users
users.sources.usersSource.deserializer
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值