Hadoop日志文件收集系统flume的搭建

本文详细介绍了如何在CentOS7环境下搭建Flume,从下载tar包、解压、配置环境变量到启动Flume,并通过两个实例展示了Flume如何接收AvroSource和netcatSource的信息,实现日志收集。在配置过程中,特别提到了解决与Hbase冲突的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

注意:做次实验的前提,Hadoop完全分布式系统或伪分布式系统必须要能运行,虚拟机本身必须安装了Java_jdk。
系统环境:VMware+centos7+Hadoop-2.7.3+flume-1.9.0

flume tar包下载

http://www.apache.org/dyn/closer.lua/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz(我选的是第一个网址)
在这里插入图片描述

解压并修改其解压文件夹名称(修改为flume)

解压:tar -zxvf apache-flume-1.9.0-bin.tar.gz
修改文件夹名称:mv 修改前的名称 flume

配置/etc/profile,并source生效

打开配置文件: vi /etc/profile
添加一下配置(每个人的安装路径不一样,具体路径请参考自己的安装位置):

#flume
export FLUME_HOME=/opt/module/flume
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=$FLUME_HOME/bin:$PATH

使配置问价生效:source /etc/profile

配置flume-env.sh的JAVA_HOME

进入安装配置文件所在位置:cd conf
在这里插入图片描述

搭建Hadoop集群后,使用Flume来配置数据收集主要包括以下几个步骤: 1. **安装和配置Flume**:首先确保在每个节点上都安装了Flume,并配置基础的Flume代理服务。这通常包括Source、Channel和Sink三个组件,分别用于接收数据、临时存储和转发到目标。 2. **创建Flume Source**:源可以是各种数据来源,如Log4j日志、JDBC、Kafka等。你需要定义Source的配置文件,指定数据的输入地址和数据格式。 ```yaml agent.sources = source1 agent.sources.source1.type = syslog agent.sources.source1.host = <主机名> ``` 3. **设置Channel**:Channel用于数据暂存,可以选择内存或持久化,例如Memory Channel或HDFS Channel。 ```yaml agent.channels = channel1 agent.channels.channel1.type = memory ``` 4. **配置Sink**:确定数据最终目的地,可能是HDFS、HBase、Solr或者其他Hadoop组件。同样需要定义Sink配置。 ```yaml agent.sinks = sink1 agent.sinks.sink1.type = hdfs agent.sinks.sink1.hdfs.path = /path/to/hadoop/directory ``` 5. **启动Flume Agent**:将上述配置整合到一个Flume配置文件(通常是flume-conf.xml),然后启动对应的Flume agent。 6. **监控和调试**:使用Flume自带的WebUI或者通过命令行工具监控数据流动状态,如有必要进行调试和优化。 记得在实际部署前,检查网络连接是否畅通,以及各个组件间的权限设置。完成以上配置后,数据就会按照设定的方式从源流向Channel再转发到Hadoop集群中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值