Flume-A：从网络端口采集数据输出到控制台

最新推荐文章于 2024-07-18 21:37:27 发布

原创

最新推荐文章于 2024-07-18 21:37:27 发布 · 438 阅读

1 ·

CC 4.0 BY-SA版权

1概述

了解一个框架就去它的官网上看 http://flume.apache.org/
Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.
在这里插入图片描述

使用：使用flume的关键就是写配置文件
A) 配置Source
B) 配置Channel
C) 配置Sink
D) 把它们串联起来

第一种方式：从网络端口采集数据输出到控制台

netcat source +memory channel +logger sink

# Name the components on this agent   定义这个Agent名称为a1,sources,sinks,channels名称为r1,k1,c1
a1.sources = r1
a1.sinks = k1
a1.channels = c1

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

吗达拉

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Flume完整实例一：从指定网络端口采集数据输出到控制台

yulutian的博客

06-26

3654

LZ最近在学习Flume（分布式日志收集框架），从简单的例子入手，以供参考需求：从指定网络端口采集数据输出到控制台 首先要安装Flume，其源码是Java，所以先安装JDK（我装的是1.8），Flume解压配置好环境后，检测flume是否安装成功：在bin目录下，比如：/home/apache-flume-1.6.0-cdh5.7.0-bin/bin 输入：flume-ng version...

Flume数据采集【从指定网络端口采集数据输出到控制台】

12-10

2558

解压重命名为:flume-netcat 配置环境变量 vi /etc/profile export FLUME_HOME_NETCAT=/usr/local/src/flume-netcat export PATH=$PATH:$FLUME_HOME_NETCAT/bin #刷新环境变量 source /etc/profile 修改flume-env.sh配置文件 #路径以自己的环境为准 export JAVA_HOME=/usr/local/src/jdk 配置agent配置文件 vi .

参与评论您还未登录，请先登录后发表或查看评论

大数据学习6之分布式日志收集框架Flume——Flume实战应用之从指定的网络端口采集数据输出到控制台

level_Tiller的博客

04-04

394

从指定的网络端口采集数据输出到控制台 进入官网，查看文档，setting up an agent，看到a simple example 使用Flume的关键就是写flume的agent配置文件 1. 配置source 2. 配置channel 3. 配置sink 4. 把以上三个组件串起来（1）例如：写一个example.conf配置文件，放置到flume的conf文件夹下 # example.conf: A single-node Flume configuration # Name the comp

flume采集数据

weixin_42796403的博客

12-10

728

今天写了一个flume的配置文件采集日志文件（json格式），将日志文件采集到kafka，结果在kafkatools工具中发现采集的每一条数据前面都多出了两个字节的乱码，显然后面的操作都是以json格式进行处理，数据被阻塞在kafka中。后来进行了反复检查，发现问题还是出现在flume配置文件中。。。。。。。。。。。。在这里配置是否以event格式写入kafka时，多加了kafka，flume读取数据时还是以默认设置以event格式读入数据，结果event中的header信息保存到kafka后变成了乱

flume数据采集_数据采集

weixin_39728909的博客

11-02

605

背景许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息，我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集，然后进行数据分析，挖掘公司业务平台日志数据中的潜在价值。任何完整的大数据平台，一般包括以下的几个过程：数据采集-->数据存储-->数据处理（ETL）-->数据展现(可视化，报表和监控)其中，数据采集是所有数据系统必不可少的，随着大数据越来越被重...

使用Flume收集数据

达文的博客

05-05

4818

Flume进程的配置包含三个部件：信源、信宿和信道。Flume还提供了一个自定义信源、信道和信宿的接口。信源在接收到足够数据可以生成一个Flume事件时，它会把新创建的事件发给信道，但如何处理事件却是对信源不可见的。 Flume支持logger、file_roll、HDFS、HBase、Avro、null（用于测试）和IRC（用于互联网中继聊天服务）信宿，信宿等着从信道接收事件，接收到数据后

Flume1.10及以上版本实现控制台打印输出

三水清来

03-24

2067

flume1.10及以上版本怎么样才能像1.9版本那样正常在控制台打印输出数据呢，目前有2种方法可以参考。

Flume应用案例之从指定网络端口采集数据输出到控制台

29DCH的博客

10-16

551

紧接我的上一篇博客分布式日志收集框架Flume环境安装部署这里开始实践，讲一下flume的应用案例１．从指定网络端口采集数据输出到控制台 还是先参考一下万能的官网 https://flume.apache.org/FlumeUserGuide.html a1:agent名称 r1:数据源的名称 k1:sink的名称 c1:channel的名称 example.conf #Name the c...

Flume数据采集（行为日志数据）

qq_45111566的博客

03-14

1186

用日志文件使用一个脚本来生成存放在集群某一个节点，由于Flume是一个单点操作，故需要在该节点配置日志采集Flume。且采集到的日志进行JSON格式校验，然后将通过校验的JSON日志发送到kafka。Flume怎么校验？Source的类型选择？选择TailDirSource的原因，可以实现断点续传，**多目录多文件实时**监控？Channel的类型选择？选择kafkaChannel，省去了Sink,，提高了效率。kafka可以均衡速率，kafkachannel直接到kafka,不用sink。

【大数据实战】flume 数据采集

一片冰心

04-07

5800

目录flume快速开始概述系统要求数据流模型安装一个简单的例子采集源目录源执行源Kafka源NetCat TCP 源avro source接收器logger sinkavro sinkHDFS 接收器弹性搜索接收器多层代理实战采集目录文件到HDFS flume 快速开始概述 Apache Flume 是一个分布式、可靠且可用的系统，用于有效地收集、聚合来自许多不同来源的大量日志数据并将其移动到集中式数据存储。 Apache Flume 的使用不仅限于日志数据聚合。由于数据源是可定制的，Flume 可用于传

flume包，用于数据的采集

01-12

flume的包。flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。Client：Client生产数据，运行在一个独立的线程。　Event：一个数据单元，消息头和消息体组成。（Events可以是日志记录、 avro 对象等。）　　Flow： Event从源点到达目的点的迁移的抽象。　　Agent：一个独立的Flume进程，包含组件Source、 Channel、 Sink。（Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。）　　Source：数据收集组件。（source从Client收集数据，传递给Channel）　　Channel：中转Event的一个临时存储，保存由Source组件传递过来的Event。（Channel连接 sources 和 sinks ，这个有点像一个队列。）　　Sink：从Channel中读取并移除Event，将Event传递到FlowPipeline中的下一个Agent（如果有的话）（Sink从Channel收集数据，运行在一个独立线程。）

实时数据流采集工具Flume

浅谈

06-22

7155

Flume是一个实时数据流采集框架，是一种分布式的、高可用的服务，可以有效的收集、聚合和移动大量的日志数据。将数据源的数据变成数据流，将数据采集到目标位置中。本质上就是一个数据迁移的过程。官网文档地址。

【图文详细】Flume 数据采集组件——实战案例

谦卑t

12-08

1494

5、Flume 实战案例 5.1、安装部署 Flume 1、Flume 的安装非常简单，只需要解压即可，当然，前提是已有 Hadoop 环境上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.8.0-bin.tar.gz 然后进入 flume 的目录，修改 conf 下的 flume-env.sh，在里面配置 JAVA_HOME 2、根据数...

大数据之flume数据采集