Hadoop日志文件收集系统flume的搭建

最新推荐文章于 2024-12-23 11:51:05 发布

余生思念你的瞳_

最新推荐文章于 2024-12-23 11:51:05 发布

阅读量430

点赞数

分类专栏：计算机

余生思恋你的瞳

本文链接：https://blog.youkuaiyun.com/weixin_42505166/article/details/95960246

版权

本文详细介绍了如何在CentOS7环境下搭建Flume，从下载tar包、解压、配置环境变量到启动Flume，并通过两个实例展示了Flume如何接收AvroSource和netcatSource的信息，实现日志收集。在配置过程中，特别提到了解决与Hbase冲突的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop日志文件收集系统flume

flume tar包下载

注意：做次实验的前提，Hadoop完全分布式系统或伪分布式系统必须要能运行，虚拟机本身必须安装了Java_jdk。
系统环境：VMware+centos7+Hadoop-2.7.3+flume-1.9.0

flume tar包下载

http://www.apache.org/dyn/closer.lua/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz（我选的是第一个网址）
在这里插入图片描述

解压并修改其解压文件夹名称（修改为flume）

解压：tar -zxvf apache-flume-1.9.0-bin.tar.gz
修改文件夹名称：mv 修改前的名称 flume

配置/etc/profile，并source生效

打开配置文件： vi /etc/profile
添加一下配置（每个人的安装路径不一样，具体路径请参考自己的安装位置）：

#flume
export FLUME_HOME=/opt/module/flume
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=$FLUME_HOME/bin:$PATH

使配置问价生效：source /etc/profile

配置flume-env.sh的JAVA_HOME

进入安装配置文件所在位置：cd conf
在这里插入图片描述

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

余生思念你的瞳_

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Ubuntu下配置Flume，并结合Kafka、Hadoop进行日志监测

qq_42797457的博客

09-19

400

配置Flume 1.下载Flume apache-flume-1.9.0-bin.tar.gz 提取码：u2la 2.解压 a@DataServer:~/softhome$ tar -zxf apache-flume-1.9.0-bin.tar.gz 3.修改文件名为flume19 4.修改配置文件 a@DataServer:~/softhome$ sudo gedit /etc/profil...

Hadoop：Flume实时日志采集组件集成搭建

小蜜蜂博客

02-09

319

环境： VMware15.5 hadoop-2.6.0-cdh5.14.0 jdk1.8 apache-flume-1.8.0 Flume安装部署： Flume的安装非常简单上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.8.0.tar.gz 然后进入flume的解压目录，修改conf下的flume-env.sh，在里...

参与评论您还未登录，请先登录后发表或查看评论

一Flume介绍

weixin_30520015的博客

09-24

340

Flume介绍 1.Flume特点 Flume是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输的系统数据流模型：Source-Channel-Sink 事务机制保证消息传递的可靠性内置丰富插件，轻松与其他系统集成 Java实现，优秀的系统框架设计，模块分明，易于开发 2.Flume原型图 Flume原型图.png 3.Flume基本组件 ...

如何搭建Flume日志收集框架

分享程序猿的内心世界

05-25

280

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。具体可以参考官网http://flume.apache.org/ ..

日志系统搭建一(flume+hadoop+hive)

企鹅漫步

05-18

2496

由于公司现在业务日志量zhu

网站流量日志数据分析系统的构建及可视化：Hadoop环境搭建、Flume数据采集、MapReduce预处理及FineBI可视化

最新发布

01-20

首先是创建Maven项目并通过Java程序模拟生成Nginx日志并将其打包成jar文件传输至Hadoop集群。接着利用Flume工具将Nginx日志采集到HDFS。随后，实现了基于Hadoop的MapReduce程序，将原始日志进行预处理和转换，并最终...

基于Hadoop、Spark、FLUME、HIVE等大数据组件搭建的一个分布式集群环境下的电影推荐及日志分析平台.zip

03-13

"基于Hadoop、Spark、FLUME、HIVE等大数据组件搭建的一个分布式集群环境下的电影推荐及日志分析平台"是一个旨在利用这些技术来解决实际业务问题的综合系统。这个平台主要用于电影推荐和日志分析，它展示了大数据技术...

Flume日志采集系统的部署和使用

2301_80956509的博客

12-23

849

掌握Flume的安装与配置：学习如何在CentOS上安装和配置Apache Flume环境。熟悉Flume的数据流模型：理解Flume的Source、Channel、Sink组件及其数据流模型。

Flume+Hadoop大数据采集部署

weixin_42732268的博客

07-13

955

Apache Flume是一个高可用的、高可靠的，分布式的海量日志采集、聚合和传输的系统。它基于流式架构，提供了灵活性和简单性，能够实时读取服务器本地磁盘的数据，并将数据写入到HDFS。

Hadoop Flume搭建

kamisamak的博客

12-05

175

flume是什么 apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务，或者数集中机制。flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中安装部署 Flume的安装非常简单上传...

hadoop 之 flume 日志采集框架

py_tamir的博客

12-06

320

目录概述运行机制简单结构复杂结构 1、概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中，一般的采集需求，通过对flume的简单配置即可实现。Flume针对特殊场景也具备良好的自定义扩展能力，...

关于文档收集系统

weixin_34364071的博客

10-08

196

平时在上网的时候经常看到好的文章，不管是技术类的，还是其他类的，每当这时候我最常做的就是把网页保存下来，时间长了，保存了好多网页，所以就想做个东西把这些资料分类保管起来，不管是浏览还是查询都是一个很好的办法，呵呵。已经在开始做了，先做个模型出来，以后慢慢的完善。主要功能：1，文章分类管理 2，文章添加，修改，删除...

Hadoop-Flume日志采集系统

weixin_30326741的博客

10-18

250

Flume是Cloudera提供的日志收集系统，具有分布式、高可靠、高可用性等特点，对海量日志采集、聚合和传输，Flume支持在日志系统中制定各类数据发送，同时，Flume提供对数据进行简单处理，并写到各种数接受方的能力。其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中。 Flume的特征：可靠性，可扩展性，可管理性接下来我们说的是F...

文件归集系统

蜗牛跑的快

05-28

469

监控指定目录，当目录中有文件创建时，自动上传至服务器中。

Hadoop-模拟搭建用户行为日志采集系统分析

夏一的博客

05-11

3018

一. kafka应用流程示意流程图前端js埋点,就是调用后端提供的对应的接口.例如:http://pingserver.com?itemid=111&userid=110&action=show&... flume监听log日志,将实时增加的log日志通过flume管道注入kafka中,接下来可以有storm或spark streaming进行实时计算;方向(1)中应用:s...

基于Springboot的文件收集系统设计与实现计算机毕设源码94368

weixin_ZYKJ985的博客

07-16

160

随着科学技术的飞速发展，社会的方方面面、各行各业都在努力与现代的先进技术接轨，通过科技手段来提高自身的优势，文件收集系统当然也不能排除在外。文件收集系统是以实际运用为开发背景，运用软件工程原理和开发方法，采用 Springboot技术构建的一个管理平台。整个开发过程首先对软件平台进行需求分析，得出平台的主要功能。接着对平台进行总体设计和详细设计。总体设计主要包括平台功能设计、平台总体结构设计、平台数据结构设计和平台安全设计等；详细设计主要包括平台数据库访问的实现，主要功能模块的具体实现....

数据采集之flume

guoguopython的博客

02-22

860

Apache Flume是一个分布式的、可靠的、可用的系统，用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储。

Windows - 文件系统学习/收集

"代码"的日常搬运

03-24

3423

1.应用场景主要Windows系统下快速定位到目录或文件. 了解/学习Windows系统. 2.学习/操作 1. 系统临时目录 C:\Users\williamning\AppData\Local\Temp //williamning是用户名同时[利用php在临时目录下建立一个具有唯一文件名的文件] tempnam....

hadoop | spark | hadoop的搭建和spark 的搭建

求知：数据科学家之路

03-04

1281

为了学习hadoop和spark，开始了搭建这两的心酸路。下面来介绍下我是如何搭建的，大家可以模仿下，若是有遇到问题，请留言哟。之前搭建成功过，后来冒出问题，一直没解决掉。这次算是搞定了。 hadoop 搭建版本hadoop-2.7.1.tar.gz,去官网下载就可以。解压到ubuntu下hadoop用户的目录下。第一步、配置java环境去http://www.oracle

搭建好Hadoop集群后如何用Flume配置数据收集

12-17

搭建好Hadoop集群后，使用Flume来配置数据收集主要包括以下几个步骤： 1. **安装和配置Flume**：首先确保在每个节点上都安装了Flume，并配置基础的Flume代理服务。这通常包括Source、Channel和Sink三个组件，分别用于接收数据、临时存储和转发到目标。 2. **创建Flume Source**：源可以是各种数据来源，如Log4j日志、JDBC、Kafka等。你需要定义Source的配置文件，指定数据的输入地址和数据格式。 ```yaml agent.sources = source1 agent.sources.source1.type = syslog agent.sources.source1.host = <主机名> ``` 3. **设置Channel**：Channel用于数据暂存，可以选择内存或持久化，例如Memory Channel或HDFS Channel。 ```yaml agent.channels = channel1 agent.channels.channel1.type = memory ``` 4. **配置Sink**：确定数据最终目的地，可能是HDFS、HBase、Solr或者其他Hadoop组件。同样需要定义Sink配置。 ```yaml agent.sinks = sink1 agent.sinks.sink1.type = hdfs agent.sinks.sink1.hdfs.path = /path/to/hadoop/directory ``` 5. **启动Flume Agent**：将上述配置整合到一个Flume配置文件（通常是flume-conf.xml），然后启动对应的Flume agent。 6. **监控和调试**：使用Flume自带的WebUI或者通过命令行工具监控数据流动状态，如有必要进行调试和优化。记得在实际部署前，检查网络连接是否畅通，以及各个组件间的权限设置。完成以上配置后，数据就会按照设定的方式从源流向Channel再转发到Hadoop集群中。