大数据集群搭建（10）——Flume的多节点集群搭建

最新推荐文章于 2024-07-04 22:52:19 发布

原创最新推荐文章于 2024-07-04 22:52:19 发布 · 1.3k 阅读

7 ·

CC 4.0 BY-SA版权

本文详细介绍了如何在多节点环境下搭建Flume集群，包括配置数据采集、中转及最终存储到HDFS的全过程。从主节点到从节点的数据流转，通过Avro和HDFS sink实现高效的数据处理。

Flume的多节点集群搭建

1.将主节点的flume拷贝到其他节点上

scp -r /usr/flume/ root@slaver1:/usr/flume/

scp -r /usr/flume/ root@slaver2:/usr/flume/

2. 在master上面配置conf文件：从某个文件夹里面采集数据，采集到的数据sink到slaver2里面(文件名:m-s2.conf)

##########################################################

##主要作用是监听目录中的新增数据，采集到数据之后，输出到avro （输出到agent）

## 注意：Flume agent的运行，主要就是配置source channel sink

## 下面的a1就是agent的代号，source叫r1 channel叫c1 sink叫k1

#########################################################

a1.sources = r1

a1.sinks = k1

a1.channels = c1

#具体定义source

a1.sources.r1.type = spooldir

#先创建此目录，保证里面空的

a1.sources.r1.spoolDir = /logs

#对于sink的配置描述使用avro日志做数据的消费

a1.sinks.k1.type = avro

a1.sinks.k1.hostname = slaver2

a1.sinks.k1.port = 44444

#对于channel的配置描述使用文件做数据的临时缓存这种的安全性要高

a1.channels.c1.type = file

a1.channels.c1.checkpointDir = /home/uplooking/data/flume/checkpoint

a1.channels.c1.dataDirs = /home/uplooking/data/flume/data

#通过channel c1将source r1和sink k1关联起来

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

3. 在slaver1上面写配置文件（master和slaver1是一样的）

(文件名:s1-s2.conf）

4. 写slaver2的配置文件：从master,slaver1上获取数据，sink到hdfs上；

(文件名:s2-hdfs.conf）

#########################################################

## 获取zhiyou01,02上的数据，聚合起来，传到hdfs上面

##    注意：Flume agent的运行，主要就是配置source channel sink

## 下面的a1就是agent的代号，source叫r1 channel叫c1 sink叫k1

#########################################################

a1.sources = r1

a1.sinks = k1

a1.channels = c1

#对于source的配置描述监听avro

a1.sources.r1.type = avro

a1.sources.r1.bind = slaver2

a1.sources.r1.port = 44444

#定义拦截器，为消息添加时间戳

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

#对于sink的配置描述传递到hdfs上面

a1.sinks.k1.type = hdfs

             #集群的nameservers名字

             #单节点的直接写：hdfs://master:9000/xxx

a1.sinks.k1.hdfs.path = hdfs://master:9000/flume/%Y%m%d

a1.sinks.k1.hdfs.filePrefix = events-

a1.sinks.k1.hdfs.fileType = DataStream

#不按照条数生成文件

a1.sinks.k1.hdfs.rollCount = 0

#HDFS上的文件达到128M时生成一个文件

a1.sinks.k1.hdfs.rollSize = 134217728

#HDFS上的文件达到60秒生成一个文件

a1.sinks.k1.hdfs.rollInterval = 60

#对于channel的配置描述使用内存缓冲区域做数据的临时缓存

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

#通过channel c1将source r1和sink k1关联起来

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1