Flume简介与安装

最新推荐文章于 2024-07-18 21:37:27 发布

JokerDa

最新推荐文章于 2024-07-18 21:37:27 发布

阅读量258

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据

本文链接：https://blog.youkuaiyun.com/qq_35641192/article/details/80906032

大数据专栏收录该内容

57 篇文章

订阅专栏

一、 Flume 简介
1 Flume 提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume 只能在 Unix 环境下运行。

2 Flume 基于流式架构，容错性强，也很灵活简单。

3 Flume、 Kafka 用来实时进行数据收集， Spark、 Storm 用来实时处理数据， impala 用来实时查询。

二、 Flume 角色
这里写图片描述
1、 Source
用于采集数据， Source 是产生数据流的地方，同时 Source 会将产生的数据流传输到 Channel，这个有点类似于 Java IO 部分的 Channel。

2、 Channel
用于桥接 Sources 和 Sinks，类似于一个队列。

3、 Sink
从 Channel收集数据，将数据写到目标源(可以是下一个 Source，也可以是 HDFS或者 HBase)。

4、 Event
传输单元， Flume 数据传输的基本单元，以事件的形式将数据从源头送至目的地。

三、 Flume 传输过程
source 监控某个文件或数据流，数据源产生新的数据，拿到该数据后，将数据封装在一个Event 中，并 put 到 channel 后 commit 提交， channel 队列先进先出， sink 去 channel 队列中拉取数据，然后写入到 HDFS 中。

四、 Flume 部署
1、解压文件
tar -zxvf apache-flume-1.7.0-bin.tar.gz -C /opt/module/

2、文件配置
flume-env.sh 涉及修改项：

pwd
/opt/module/apache-flume-1.7.0-bin/conf

mv flume-env.sh.template flume-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_151

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JokerDa

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Flume简介及安装配置

weixin_42232931的博客

03-12

308

一 Flume的简介 1.1 大数据处理流程在企业中，大数据的处理流程一般是： 1.数据采集 2.数据存储 3.数据清洗 4.数据分析 5.数据展示参考下图：在数据采集和搜集的工具中，Flume框架占有一定的市场份量。 1.2 Flume的简介 Flume是一种分布式的，可靠的、高可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制，具有强大的功能和容错能力。它使用一个简单的可扩展数据模型，允许在线分析应

一 Flume简介和安装

andy的博客

03-11

210

文章目录1 Flume概述1.1 Flume定义1.2 Flume基础架构1.2.1 Agent1.2.2 Source1.2.4 Channel1.2.5 Event1.2.6 Interceptors1.2.7 Channel Selectors1.2.8 Sink Processors2 Flume安装部署 1 Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高...

参与评论您还未登录，请先登录后发表或查看评论

Flume 介绍及安装

qq_32783151的博客

06-15

278

一、Flume简介 Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。 Flume基于流式架构，容错性强，也很灵活简单。 Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。二、Flume角色 2.1、Source 用于采集数据，Source是产生数据流的地方，同时Source会将产生的数据流传输到Channel，这个有点类似于Java IO部分的Channel。 2.2

Flume介绍与安装

最新发布

qq_73339471的博客

07-18

2667

Flume 是一个的，主要用于将大量的数据从（如日志文件、数据库、本地磁盘等）采集到（主要为）中，用来处理日志数据，并支持在数据流中可靠、高效地移动数据。

日志抽取框架 flume 简介与安装配置

weixin_34343308的博客

04-12

116

一：flume 简介与功能二：flume 安装与配置与简单测试一：flume 的简介与功能架构 1.1 flume 的简介： 1.1.1 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 1....

hadoop2.0flume简介及安装

09-03

可以将数据通过flume抽取到本地文件系统中、数据库中、HDFS中，还可以抽取到远端的服务区当中，比如华为北京分公司要将数据发送到华为的总部，做分析处理，所以就需要发送到远端服务器上，这个工具可以在我们日常...

Flume简介与详细安装教程

zp17834994071的博客

08-09

3060

Flume简介 Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。 Flume是一个分布式、可靠和高可用的海量日志采集、聚合和传输的系统。 Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复。 Flume具有Reliability、Scalability、Manageability和Extensibility特点： 1.Reliability：Flume提供

flume安装

m0_60431736的博客

09-20

820

flume的快速入门

Kafka工作流程分析

Da.的博客

07-08

1万+

1 Kafka生产过程分析 1 写入方式 producer采用推（push）模式将消息发布到broker，每条消息都被追加（append）到分区（patition）中，属于顺序写磁盘（顺序写磁盘效率比随机写内存要高，保障kafka吞吐率）。 2 分区（Partition） Kafka集群有多个消息代理服务器（broker-server）组成，发布到Kafka集群的每条消息都有一...

Sqoop 一些常用命令及参数

Da.的博客

06-29

7640

1、常用命令列举这里给大家列出来了一部分 Sqoop 操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。序号命令类说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 codegen CodeGenTool 获取数...

Hadoop 数据压缩

Da.的博客

05-29

5519

1 概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop 下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这种情况下， I/O 操作和网络数据传输要花大量的时间。还有， Shuffle与 Merge 过程同样也面临着巨大的 I/O 压力。鉴于磁盘 I/O 和网络带宽是 Hadoop 的宝贵资源，数据压缩...

DataNode 工作机制

Da.的博客

05-14

4618

1 DataNode 工作机制 1 一个数据块在 datanode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 2 DataNode 启动后向 namenode 注册，通过后，周期性（1 小时）的向 namenode 上报所有的块信息。 3 心跳是每 3 秒一次，心跳返回结果带有 namenode 给该 d...

NameNode 工作机制

Da.的博客

05-13

4407

1 NameNode&amp;amp;amp;Secondary NameNode 工作机制

HDFS 客户端操作

Da.的博客

05-10

4379

1 HDFS 客户端环境准备 1 jar 包准备 1 解压 hadoop-2.7.2.tar.gz 到非中文目录 2 进入 share 文件夹，查找所有 jar 包，并把 jar 包拷贝到_lib 文件夹下 3 在全部 jar 包中查找 sources.jar，并剪切到_source 文件夹 4 在全部 jar 包中查找 tests.jar，并剪切到_test 文件夹 2 Ec

Apache Flume 1.5.0 日志处理系统简介与特性

**安装和使用**: 要使用Flume，首先需要从Apache官网下载对应版本的压缩包，并将其解压。然后，需要编写配置文件，定义Agent的Source、Channel和Sink，以及它们之间的连接关系。配置完成后，就可以启动Flume Agent，...