Flume数据采集（行为日志数据）

SwimorD

已于 2024-03-14 16:39:45 修改

阅读量1.1k

点赞数 9

文章标签： flume 大数据

于 2024-03-14 16:18:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_45111566/article/details/136712140

版权

Flume数据采集

前置条件：完成zookeeper、Kafka、Flume以及Hadoop的安装和基本学习。

1 Flume配置概述

用日志文件使用一个脚本来生成存放在集群某一个节点，由于Flume是一个单点操作，故需要在该节点配置日志采集Flume。且采集到的日志进行JSON格式校验，然后将通过校验的JSON日志发送到kafka。

Flume怎么校验？
Source的类型选择？
选择TailDirSource的原因，可以实现断点续传，**多目录多文件实时**监控？
Channel的类型选择？
选择kafkaChannel，省去了Sink,，提高了效率。kafka可以均衡速率，kafkachannel直接到kafka,不用sink。（sink的目的也是均衡速率）

2 Flume实际配置

#定义组件
a1.sources = r1
a1.channels = c1

#配置source
# source类型
a1.sources

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。