Flume安装和基本操作

最新推荐文章于 2024-04-23 12:32:08 发布

原创最新推荐文章于 2024-04-23 12:32:08 发布 · 523 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#kafka

kafka 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了Apache Flume的组件分析，包括Source、Sink和Channel，以及如何在Linux环境中进行安装配置。通过实例展示了如何创建Flume配置文件，启动Flume Agent，并使用netcat发送数据进行测试。此外，还提供了数据丢失场景下的MemoryChannel和FileChannel选择建议。

Flume安装操作

一、Flume简介
二、安装配置
三、Flume入门基本操作

一、Flume简介

什么是Flume?

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。

Flume最主要作用：实时读取服务器本地磁盘的数据，将数据写入到HDFS中

Flume的基础架构

在这里插入图片描述

组件分析

Agent

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。
Agent主要有3个部分组成，Source、Channel、Sink。

Source

Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、>thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

Sink

Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统,或者被发送到另一个Flume Agent。Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。

Channel

Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带两种Channel：Memory Channel和File Channel。
Memory Channel: 是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channe: l将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

二、安装配置

解压安装包到/opt/module/目录下

tar -zvxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/

修改名字为flume
mv apache-flume-1.7.0-bin flume

配置环境变量
编辑etc/profile或者~/.bash_profile文件中

#flume添加一下内容
export FLUME_HOME=/opt/module/flume
export PATH=$PATH:$FLUME_HOME/bin

在flume安装目录下创建目录jobs
mkdir jobs
验证是否安装成功
flume-ng version
安装netcat
yum -y install nc

三、Flume入门基本操作

创建配置文件，在jobs目录下创建配置文件flume-test.conf
添加如下内容:

#Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#Describe/configue the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

a1.sinks.k1.type=logger

#use a channel which buffers events in memory
a1.channels.c1.type = memory

#Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

启动flume

bin/flume-ng agent -n a1 -c conf/ -f job/flume-test.conf -Dflume.root.logger=INFO,console

启动nc
nc localhost 44444
注意:端口号要与flume配置文件一致
在nc输入数据
在flume端查看结果

你的一键三连就我继续写作的动力！