一、采集说明
本采集方式使用socket通信的方式,向flume发送数据进行采集,采集后的数据存储到hdfs和kafka。
二、配置文件
1、source采集层
port.properties
# set agent name
agent.sources = r1
agent.channels = c_kafka c_hdfs
agent.sinks = s_kafka_k1 s_kafka_k2 s_kafka_k3 s_hdfs_k1 s_hdfs_k2
# set group
agent1.sinkgroups = g_kafka g_hdfs
# set sources
# 采用tcp的方式收集数据
agent.sources.r1.type =syslogtcp
agent.sources.r1.bind=10.0.2.6
agent.sources.r1.port=44444
agent.sources.r1.channels =c_kafka c_hdfs
# set kafka channels
agent.channels.c_kafka.type = file
agent.channels.c_kafka.checkpointDir = /usr/local/flume-1.7.0-bin/spool/checkpoint
agent.channels.c_kafka.dataDirs = /usr/local/flume-1.7.0-bin/spool/data
agent.channels.c_kafka.capacity = 200000000
agent.channels.c_kafka.keep-alive = 30
agent.channels.c_kafka.write-timeout = 30
agent.channels.c_kafka.checkpoint-timeout=600
# set hdfs channels
agent.channels.c_hdfs

本文介绍了如何使用Flume-NG通过syslogTCP方式监听端口进行数据采集,采集后数据将存储到HDFS和Kafka。配置文件包括source采集层的port.properties,以及sink数据落地层的配置。同时提供了Java发送数据的测试代码,并建议在Flume宕机时,利用Java将数据写入本地以避免数据丢失。
最低0.47元/天 解锁文章
906

被折叠的 条评论
为什么被折叠?



