Hadoop集群之flume安装配置

本文档详细介绍了在Hadoop集群上安装和配置Flume的步骤,包括环境变量设置、软件包解压、配置文件修改、组件验证、日志采集实例等。通过配置,Flume能够从多个节点收集日志并写入HDFS,实现日志的高效管理和分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop集群之flume安装配置

1. 官方文档

http://flume.apache.org/ 

2. 配置环境变量

vi /etc/profile

#set flum

export FLUME_HOME=/opt/hadoop/flume-bin

export FLUME_CONF_DIR=$FLUME_HOME/conf

export PATH=$PATH:$FLUME_HOME/bin 

sftp> put apache-flume-1.6.0-bin.tar.gz

sftp> put apache-flume-1.6.0-src.tar.gz

3. 解压软件包

[hadoop@slavenode1 hadoop]# pwd

/opt/hadoop

tar -zxvf apache-flume-1.6.0-src.tar.gz ; tar -zxvf apache-flume-1.6.0-bin.tar.gz 

[hadoop@slavenode1 hadoop]# mv apache-flume-1.6.0-bin flume-bin

4. 修改配置文件

[hadoop@slavenode1 flume-bin]# cd conf/

[hadoop@slavenode1 conf]# cp flume-env.sh.template flume-env.sh

[hadoop@slavenode1 conf]# vi flume-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_79

5. 验证是否安装成功

[hadoop@slavenode1 conf]# 

[hadoop@slavenode8 conf]$ /opt/hadoop/flume-bin/bin/flume-ng version

Flume 1.6.0

Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git

Revision: 2561a23240a71ba20bf288c7c2cda88f443c2080

Compiled by hshreedharan on Mon May 11 11:15:44 PDT 2015

From source with checksum b29e416802ce9ece3269d34233baf43f

6. 分发各节点(slavenode1-slavenode7

[hadoop@slavenode8 hadoop]$ for i in {32,33,34,35,36,37,38};do scp -r flume-bin 192.168.237.2$i:/opt/hadoop/ ; done

7. Flume采集某个日志的具体实例


创建一个新的目录共平时日志采集放配置文件使用。

[hadoop@slavenode4 example]$ mkdir /opt/hadoop/flume-bin/example

1) 单节点flume直接写入hdfs,监控一个日志文件

[hadoop@slavenode4 example]$ cat flume_directHDFS.conf 

# Define a memory channel called ch1 on agent1

agent1

搭建好Hadoop集群后,使用Flume配置数据收集主要包括以下几个步骤: 1. **安装配置Flume**:首先确保在每个节点上都安装Flume,并配置基础的Flume代理服务。这通常包括Source、Channel和Sink三个组件,分别用于接收数据、临时存储和转发到目标。 2. **创建Flume Source**:源可以是各种数据来源,如Log4j日志、JDBC、Kafka等。你需要定义Source的配置文件,指定数据的输入地址和数据格式。 ```yaml agent.sources = source1 agent.sources.source1.type = syslog agent.sources.source1.host = <主机名> ``` 3. **设置Channel**:Channel用于数据暂存,可以选择内存或持久化,例如Memory Channel或HDFS Channel。 ```yaml agent.channels = channel1 agent.channels.channel1.type = memory ``` 4. **配置Sink**:确定数据最终目的地,可能是HDFS、HBase、Solr或者其他Hadoop组件。同样需要定义Sink配置。 ```yaml agent.sinks = sink1 agent.sinks.sink1.type = hdfs agent.sinks.sink1.hdfs.path = /path/to/hadoop/directory ``` 5. **启动Flume Agent**:将上述配置整合到一个Flume配置文件(通常是flume-conf.xml),然后启动对应的Flume agent。 6. **监控和调试**:使用Flume自带的WebUI或者通过命令行工具监控数据流动状态,如有必要进行调试和优化。 记得在实际部署前,检查网络连接是否畅通,以及各个组件间的权限设置。完成以上配置后,数据就会按照设定的方式从源流向Channel再转发到Hadoop集群中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值