Flume-NG

最新推荐文章于 2024-05-01 17:41:27 发布

原创

最新推荐文章于 2024-05-01 17:41:27 发布 · 1.8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#flume

Flume-NG是一个用于高效收集、聚合和移动大量日志数据的分布式系统。其核心概念包括Event、Flow、Client、Agent、Source、Channel和Sink。Agent由Source、Channel和Sink组成，Source消费数据，Channel作为临时存储，Sink将数据传递到存储系统，如HDFS。Flume NG支持failover和负载均衡，适用于多种日志收集场景，如多Agent顺序连接、数据汇聚、多路复制和负载平衡。配置中涉及的组件如Selector、Processor等可实现复杂的日志处理策略。

Flume-NG是一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG，进行了架构重构，并且现在NG版本完全不兼容原来的OG版本。经过架构重构后，Flume NG更像是一个轻量的小工具，非常简单，容易适应各种方式日志收集，并支持failover和负载均衡。

架构设计要点

Flume的架构主要有一下几个核心概念：

Event：一个数据单元，带有一个可选的消息头

Flow：Event从源点到达目的点的迁移的抽象

Client：操作位于源点处的Event，将其发送到Flume Agent

Agent：一个独立的Flume进程，包含组件Source、Channel、Sink

Source：用来消费传递到该组件的Event

Channel：中转Event的一个临时存储，保存有Source组件传递过来的Event

Sink：从Channel中读取并移除Event，将Event传递到Flow Pipeline中的下一个Agent（如果有的话）

Flume NG架构，如图所示：

外部系统产生日志，直接通过Flume的Agent的Source组件将事件（如日志行）发送到中间临时的channel组件，最后传递给Sink组件，HDFS Sink组件可以直接把数据存储到HDFS集群上。

一个最基本Flow的配置，格式如下：

# listthe sources, sinks and channels for the agent

.sources=

.sinks=

.channels=

# setchannel for source

.sources..channels= ...

# setchannel for sink

.sinks..channel=

尖括号里面的，我们可以根据实际需求或业务来修改名称。下面详细说明：

表示配置一个Agent的名称，一个Agent肯定有一个名称。与是Agent的Source组件的名称，消费传递过来的Event。与是Agent的Channel组件的名称。与是Agent的Sink组件的名称，从Channel中消费（移除）Event。

上面配置内容中，第一组中配置Source、Sink、Channel，它们的值可以有1个或者多个；第二组中配置Source将把数据存储（Put）到哪一个Channel中，可以存储到1个或多个Channel中，同一个Source将数据存储到多个Channel中，实际上是Replication；第三组中配置Sink从哪一个Channel中取（Task）数据，一个Sink只能从一个Channel中取数据。

下面，根据官网文档，我们展示几种Flow Pipeline，各自适应于什么样的应用场景：

1)多个Agent顺序连接