Flume系列——Flume介绍及安装

最新推荐文章于 2023-04-21 15:28:52 发布

原创最新推荐文章于 2023-04-21 15:28:52 发布 · 260 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Flume #hadoop

Flume 专栏收录该内容

0 篇文章

订阅专栏

Flume是一款用于高效收集、聚合并传输大规模日志数据的分布式系统。它通过多个Agent组件来实现数据的流转，每个Agent包含Source、Channel和Sink三个部分。Source负责接收数据，Channel作为临时存储，而Sink则负责将数据传送到最终目的地。

Flume系列——Flume介绍及安装

介绍

Hadoop是离线批量处理海量数据的框架，这些数据已经存放在了HDFS上。但是除非这些数据是其他MapReduce的输出，否则它们不可能一开始就在HDFS上。那么它们是怎么放上去的呢？

当然有很多种途径，如sqoop。不同的数据源可能实用的框架不同。我们在这里要提到的是Flume。官方是这样描述它的：

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

它是一个分布式的、可靠的和可用的服务，能高效收集、聚合和移动大量日志数据。它用可调优的可靠性机制以及故障切换和恢复机制了保证健壮性和容错性。

Flume由很多个Agent组成，它们是一直运行的java进程。Agent由Source、Channel和Sink组成。Source是数据源，它读取数据并发送到Channel中，数据储存在Channel中直到被转发到Sink。Flume读取的数据是以事件流的形式发送的。其结构如下：
这里写图片描述