hadoop生态 apache-Flume-1.8.0 的安装和使用

原创

于 2025-02-06 17:10:57 发布 · 1.5k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #apache #flume

hadoop生态怎么安装 apache-Flume-1.8.0

Flume 1.8.0 是 Apache Flume 的一个版本，Flume 是一个分布式、可靠且可用的服务，用于高效地收集、聚合和传输大量日志数据到 Hadoop 存储。Flume 主要用于大数据生态系统中，尤其是与 Apache Hadoop 结合使用，来处理大规模的流数据。

主要常见的应用场景：
日志收集： Flume 常被用来收集应用程序日志、服务器日志等，并将其传输到 Hadoop 存储系统中进行进一步分析。
实时数据流：它还可以用于实时流数据的处理和分析，广泛应用于日志分析、监控系统等场景。
总的来说，Flume 1.8.0 是一个高效的、可靠的数据传输系统，特别适用于处理大规模的流数据，并且与 Hadoop 生态中的其他工具（如 HDFS、HBase）无缝集成。

文章目录

hadoop生态怎么安装 apache-Flume-1.8.0

Flume安装部署

安装apache-flume-1.8.0

第一步
下载好 apache-flume-1.8.0-bin.tar.gz

第二步解压

tar -zxvf apache-flume-1.8.0-bin.tar.gz

第三步修改权限

chmod 777 apache-flume-1.8.0-bin

进⼊apache-flume-1.8.0-bin的⽬录

在这里插入图片描述

第四步重命名flume-env.sh.template ⽂件

mv flume-env.sh.template flume-env.sh

在这里插入图片描述
第五步配置 flume-env.sh

vi flume-env.sh

在这里插入图片描述

第六步

升级替换 guava jar包

cp /opt/module/hadoop-3.3.0/share/hadoop/hdfs/lib/guava-27.0-jre.jar /opt/m
odule/apache-flume-1.8.0-bin/lib/

示例 1

1、先在f

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小Tomkk

关注关注

10
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Flume1.8.0原理解析及安装部署

夏天小厨的博客

12-10

895

Flume是数据收集/聚合/传输的组件，也是我们生产环境中常用的日志收集传输系统，常用的一种日志实时处理架构就是Flume+Kafka+Storm/Flink+HDFS，这些实时系统的集成日后我们会提及到。一背景简介：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，2009年贡献给Apache并成为顶级项目。Flume支持在日志系统中定...

Hadoop中Flume安装指南

09-28

Hadoop中的Flume安装指南，不会的童鞋可以下载哦，有助于学习

参与评论您还未登录，请先登录后发表或查看评论

flume在虚拟机上安装，

09-17

flume安装，其中有具体的安装流程，注意事项，可能遇到的问题已经解决办法。

Flume1.8安装部署

04-23

Flume1.8安装部署，包含目录结构为1、下载地址，安装环境工具下载地址 2、单个Flume安装 3、多个Flume安装及HA 4、应用场景 5、Flume-Ng组件概述

flume1.8 基础架构介绍（一）

Swordfall的博客

12-31

209

1. 系统要求 1. Java运行环境 —— Java 1.8及以上 2. 内存 —— 足够的内存供配置的sources，channels 或者sinks使用 3. 硬盘空间 —— 足够的硬盘空间供配置的channels或者sinks使用 4. 文件权限 —— agent使用的文件夹读写权限 2. 架构及数据流模型模型介绍详情参考：http://www.cnblogs.com/...

flume 1.8

weixin_33739541的博客

10-20

106

2019独角兽企业重金招聘Python工程师标准>>> ...

apache-flume-1.8.0-bin.tar.gz

04-06

在本压缩包 "apache-flume-1.8.0-bin.tar.gz" 中，包含了 Apache Flume 的二进制发行版，用户可以直接解压使用。 Flume 的核心概念包括源（Sources）、通道（Channels）和接收器（Sinks）。源负责从不同的数据源...

apache-flume-1.8.0

10-15

关于压缩包子文件的文件名称"apache-flume-1.8.0-bin"，这通常是一个解压后包含Flume可执行文件和相关库的二进制发行版。解压后，你可以找到配置文件、bin目录（包含启动和停止脚本）、lib目录（包含Flume依赖的JAR...

apache-flume-1.8.0-src.tar.gz

06-19

在深入探讨`apache-flume-1.8.0-src.tar.gz`这个源码包之前，我们先理解Flume的基本概念和架构。 **Flume基本概念：** 1. **Agent**：Flume的核心工作单元，它由Source、Channel和Sink三部分组成。Source负责接收...

apache-flume1.8

07-11

在使用 `apache-flume-1.8.0-bin` 压缩包时，你需要解压后按照官方文档的指引配置 Flume，创建数据流配置文件，并启动 Flume 代理。根据你的需求，可以设置多个数据源、通道和接收器，构建复杂的日志收集和分发网络...

Hadoop学习记录（九、Flume安装与使用）

在知识的海洋中遨游

12-14

415

原理详见http://www.cnblogs.com/zhangyinhua/p/7803486.html 1.Flume安装 1.1官网上下载一个稳定版本并解压 1.2添加配置变量 vim /etc/profile export FLUME_HOME=/usr/local/flume-1.8.0 export PATH=$FLUME_HOME/bin:$PATH 1.3添加jdk...

flume 1.8 详解

zp1220的专栏

09-01

531

Flume日志采集框架一、准备安装好对应版本的hadoop集群二、主题本堂课主要围绕flume的知识点进行讲解。主要包括以下几个方面 flume的核心概念 flume的应用场景 flume的安装部署 flume的企业案例三、目标掌握flume的应用场景掌握flume中常用的source、channel、sink使用掌握flume的企业案例四、知识要点 1. Flume...

flume1.8在线上业务中的使用和总结

csa121的博客

02-27

1889

什么是flume？ flume是一个日志采集、聚合和传输的系统作用是什么？作用就是将业务集群上各个机器上的日志收集起来，对数据做集中处理。部署文档最新版的flume1.8，请参官网 http://flume.apache.org/FlumeUserGuide.html 的使用说明，真的很详细。网上也有flume1.7的搭建教程，Google一下就可以，搭建过程...

flume1.8的安装及环境配置

weixin_30614587的博客

09-16

305

简介FLume 官网：http://flume.apache.org/ A1.flume 作为cloudera 开发的分布式、可靠、高可用的海量实时日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据的简单处理，并写到各种数据接收方的能力。 A2.它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错能力 A3....

Flume1.8.0背景介绍以及安装部署

weixin_43579015的博客

03-03

2278

一、Flume背景 Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步。许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；（3）具有高可扩展性。即：当数据量增加时，

hadoop整合flume

祗要习惯就好的博客

10-30

1035

hadoop整合flume基本流程

flume 1.8 安装部署

最新发布

06-16

### Flume启动命令详解 Flume是一个分布式的、可靠的、高可用的日志收集系统，其启动命令的参数配置直接决定了Flume Agent的行为和运行方式。以下是对`flume-ng agent`启动命令中各参数的详细解析[^1]。 #### 参数解析 1. **`flume-ng agent`** 表示启动一个Flume Agent实例。Agent是Flume的核心组件，负责接收、处理和传输数据流。 2. **`--conf /opt/module/apache-flume-1.9.0-bin/conf`** 指定Flume的配置目录路径。该目录通常包含`log4j.properties`等日志配置文件以及`flume-env.sh`等环境变量配置文件。此参数确保Flume能够正确加载全局配置[^3]。 3. **`--name a1`** 定义当前启动的Agent名称为`a1`。Flume支持多个Agent同时运行，每个Agent通过唯一的名称进行区分[^1]。 4. **`--conf-file /opt/module/apache-flume-1.9.0-bin/conf/a1.conf`** 指定当前Agent的具体配置文件路径。此文件定义了数据源（source）、通道（channel）和接收器（sink）之间的关系，以及它们的具体实现类和参数[^4]。 5. **`-Dflume.root.logger=INFO,console`** 设置Flume的日志级别为`INFO`，并将日志输出到控制台。此参数用于调试或监控Flume运行状态时非常有用[^1]。 6. **JDK版本兼容性** Flume 1.9.0推荐使用JDK 1.8.x版本，如`jdk1.8.0_212`。确保JDK版本与Flume兼容，避免因版本不匹配导致的运行时错误[^3]。 #### 配置文件详解 Flume的配置文件（如`a1.conf`）定义了数据流的拓扑结构，主要包括以下几个部分： 1. **Source** 数据来源，例如Netcat Source、Spooling Directory Source等。配置示例： ```properties a1.sources = r1 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 ``` 2. **Channel** 数据暂存区，例如Memory Channel、File Channel等。配置示例： ```properties a1.channels = c1 a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 ``` 3. **Sink** 数据目标，例如HDFS Sink、Logger Sink等。配置示例： ```properties a1.sinks = k1 a1.sinks.k1.type = logger ``` 4. **绑定关系** 将Source、Channel和Sink绑定在一起，形成完整的数据流。配置示例： ```properties a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 ``` #### 常见问题排查 1. **配置文件路径错误** 如果`--conf-file`指定的路径不存在或文件内容有误，Flume将无法正常启动。需检查路径是否正确，并验证配置文件语法[^4]。 2. **依赖库冲突** Flume 1.9.0默认的`guava-11.0.2.jar`可能与Hadoop的版本冲突，需删除并替换为兼容版本[^5]。 3. **日志级别设置不当** 若日志级别过高（如`ERROR`），可能导致问题难以定位。建议在调试阶段设置为`DEBUG`或`INFO`[^1]。 ```bash -Dflume.root.logger=DEBUG,console ``` 4. **端口占用** 如果Source使用的端口被其他进程占用，Flume将无法启动。可通过以下命令检查端口占用情况： ```bash netstat -tuln | grep 44444 ``` ### 示例代码以下是一个简单的Flume配置文件示例： ```properties # 定义Source a1.sources = r1 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 # 定义Channel a1.channels = c1 a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 # 定义Sink a1.sinks = k1 a1.sinks.k1.type = logger # 绑定关系 a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 ``` ---