Apache Flume初识

最新推荐文章于 2024-09-24 23:15:07 发布

原创最新推荐文章于 2024-09-24 23:15:07 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

flume 专栏收录该内容

2 篇文章

订阅专栏

Apache Flume 是一款分布式、可靠且高可用的系统，用于高效地收集、聚合及传输大量来自不同源的日志数据。它由Apache社区维护，简化后的架构包括source、sink和channel三部分。

官网介绍：http://flume.apache.org/FlumeUserGuide.html

Apache flume是一个分布式的，可靠的，高可用的系统，能够有效地收集、汇总和移动大量的从许多不同的来源日志数据，并集中式存储数据。

1）它是FlumeOG的重构版本，apache来开发管理。
2）它变的很简单， Master、zookeeper、collector和WebUI没有了
3）简化成了
1、source （avro：很简单使用；exec：使用shell命令; Http Post source;Spool Directory Source; JMS Source等）
2、sink （hdfs、file、kafka）
3、channel(Memory、disk)

系统要求：

Java Runtime Environment - Java 1.6 or later (Java 1.7 Recommended)
Memory - Sufficient memory for configurations used by sources, channels or sinks
Disk Space - Sufficient disk space for configurations used by channels or sinks
Directory Permissions - Read/Write permissions for directories used by agent

数据流模型

数据获取：

1）RPC
1、在flume中，Avro客户端使用AVRO RPC机制可以发送一个给定的文件 Avro 源：
2、$ bin/flume-ng avro-client -H localhost -p 31515 -F /usr/logs/log.10
3、上面的命令将发送的/ usr/logs/log.10的内容到 flume源监听端
2）Executing commands
1、还有一个exec执行一个给定的命令获得输出的源。一个单一的输出，即“line”。回车（'\ R'）或换行符（'\ N'），或两者一起的文本。注：Flume不支持tail做为一个源，不过可以通过exec tail。
3）Network streams
Flume支持以下的机制，从流行的日志流类型读取数据
1、Avro(数据序列化系统)
2、Syslog
3、Netcat(使用TCP或UDP协议的网络连接去读写数据)

数据channel：

数据sink:

举例说明：

agent.sources = tailPlay
agent.channels = memoryChannel
agent.sinks = kafka

#Describe channels
agent.channels.memoryChannel.type = memory
agent.channels.memoryChannel.capacity = 500

#Describe sources
agent.sources.tailPlay.type = exec
agent.sources.tailPlay.command = tail -F /export/servers/nginx/logs/x.jd.com/x.jd.com_info.log
agent.sources.tailPlay.channels = memoryChannel

#Describe sinks
agent.sinks.kafka.type = com.xxx.flume.sink.kafka.KafkaSink
agent.sinks.kafka.channel = memoryChannel
agent.sinks.kafka.serializer.class = kafka.serializer.StringEncoder
agent.sinks.kafka.metadata.broker.list=192.168.39.169:9092,192.168.39.170:9092,192.168.39.171:9092
agent.sinks.kafka.topic=play