Flume读取文件传输到Kafka全流程

NoBugPro

于 2018-11-30 19:29:42 发布

阅读量7.4k

点赞数 7

分类专栏： kafka 大数据基础文章标签： kafka flume 日志文件

本文链接：https://blog.youkuaiyun.com/qq_41571900/article/details/84666854

版权

本文详细介绍了如何配置和使用Flume从日志文件中读取数据并将其传输到Kafka集群。首先，部署Kafka集群，包括修改server.properties配置、设置环境变量和启动服务。接着，配置Flume，创建flume-kafka.conf配置文件，定义数据流向。最后，通过启动Flume进程和Kafka消费者验证数据传输成功，为后续的大数据处理做好准备。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前期工作

先部署Kafka集群和Flume。
Flume在解压后只需要在flume-env.sh中修改jdk路径就行了。
而Kafka集群相比较下就有点复杂了，步骤如下：

解压kafka的压缩包。

vi /config/server.properties,在其中进行下面4，5，6步

broker.id=0 ，这个是每台机器的标识，不可重复。

delete.topic.enable=true，这个是确保删除Topic否则删除时不仅要清除本地数据，还要清除ZK上的数据。

log.dirs=/opt/module/kafka/logs,配置自己想存储的路径，这里不仅是日志，它也是数据存储的地方。

zookeeper.connect=hadoop01:2181,hadoop02:2181,hadoop03:2181，配置ZK集群的ip地址及端口号。

配置环境变量，即在/etc/profile下增加PATH。

分发一下kafka到集群其他机器上，记得修改broker.id。

在每台机器的kafka文件夹下，使用bin/kafka-server-start.sh config/server.properties & 打开kafka服务。