03-Flume的配置说明及案例演示

最新推荐文章于 2024-09-30 07:00:00 发布

Alibaba、程序员

最新推荐文章于 2024-09-30 07:00:00 发布

阅读量316

点赞数 5

CC 4.0 BY-SA版权

分类专栏：程序员文章标签： flume 大数据

本文链接：https://blog.youkuaiyun.com/F1520080/article/details/138088025

程序员专栏收录该内容

566 篇文章

订阅专栏

org.apache.flume. source.kafka, KafkaSource

…

常见的flume channels

Memory Channel

memory

JDBC Channel

jdbc

Kafka Channel

org.apache.flume.channel.kafka.KafkaChannel

File Channel

file

常用的flume sinks

HDFS Sink

hdfs

HIVE Sink

hive

Logger Sink

logger

Avro Sink

avro

Kafka Sink

org.apache.flume.sink.kafka.KafkaSink

Hbase Sink

hbase

案例演示

======================================================================

案例演示：avro+memory+logger

Avro Source:监听一个指定的Avro端口，通过Awro端口可以获取到Avro client发送过来的文件，即只要应用程序通过Avro端口发送文件，source组件就可以获取到该文件中的内容,输出位置为Logger

1.1 编写采集方案

[root@tianqinglong01 flume]# mkdir flumeconf

[root@tianqinglong01 flume]# cd flumeconf

[root@tianqinglong01 flumeconf]# vi avro-logger.conf

#定义各个组件的名字

a1.sources=avro-sour1

a1.channels=mem-chan1

a1.sinks=logger-sink1

#定义sources组件的相关属性

a1.sources.avro-sour1.type=avro

a1.sources.avro-sour1.bind=tianqinglong01

a1.sources.avro-sour1.port=9999

#定义channels组件的相关属性

a1.channels.mem-chan1.type=memory

#定义sinks组件的相关属性

a1.sinks.logger-sink1.type=logger

a1.sinks.logger-sink1.maxBytesToLog=100

#组件之间进行绑定

a1.sources.avro-sour1.channels=mem-chan1

a1.sinks.logger-sink1.channel=mem-chan1

1.2 启动Agent

[root@tianqinglong01 flumeconf]# flume-ng agent -c …/cong -f ./avro-logger.conf -n a1 -Dflume.root.logger-INFO,console

再开一个客户端

[root@tianqinglong01 ~]# echo “hello flume” >> text

[root@tianqinglong01 ~]# flume-ng avro-client -c $FLUME_HOME/conf -H tianqinglong01 -p 9999 -F ./text

案例演示实时采集（监听文件）： exec+memory+hdfs

Exec Source:监听一个指定的命令，获取一条命令的结果作为它的数据源

#常用的是tail -F file指令，即只要应用程序向日志（文件）里面写数据,source组件就可以获取到日志（文件）中最新的内容

memory:传输数据的Channel为Memory

hdfs是输出目标为Hdfs

配置方案

[root@tianqinglong flumeconf]# vi exec-hdfs.conf

a1.sources=r1

a1.sources.r1.type=exec

a1.sources.r1.command=tail -F /root/flume-test-exec-hdfs

a1.sinks=k1

a1.sinks.k1.type=hdfs

a1.sinks.k1.hdfs.path=hdfs://qianfeng01:8020/flume/tailout/%Y-%m-%d

a1.sinks.k1.hdfs.filePrefix=events

a1.sinks.k1.hdfs.round=true

a1.sinks.k1.hdfs.roundValue=10

a1.sinks.k1.hdfs.roundUnit=second

a1.sinks.k1.hdfs.rollInterval=3

a1.sinks.k1.hdfs.rollSize=20

a1.sinks.k1.hdfs.rollCount=5

a1.sinks.k1.hdfs.batchSize=1

a1.sinks.k1.hdfs.useLocalTimeStamp=true

a1.sinks.k1.hdfs.fileType=DataStream

a1.channels=c1

a1.channels.c1.type=memory

a1.channels.c1.capacity=1000

a1.channels.c1.transactionCapacity=100

a1.sources.r1.channels=c1

a1.sinks.k1.channel=c1

启动Agent

[root@tianqinglong flumeconf]# flume-ng agent -c …/conf -f ./exec-hdfs.conf -n a1 -Dflume.root.logger-INFO,console

测试数据

[root@tianqinglong ~]# echo “hello world” >> flume-test-exec-hdfs

案例演示实时采集（监听目录）： spool+mem+logger

spool: Source来源于目录，有文件进入目录就摄取。mem:通过内存来传输数据

logger:是传送数据到日志

配置方案

[root@tianqinglong01 flumeconf]# vi spool-logger.conf

a1.sources = r1

a1.channels = c1

a1.sinks = s1

a1.sources.r1.type=spooldir

a1.sources.r1.spoolDir = /home/flume/spool

a1.sources.r1.fileSuffix =.COMPLETED

a1.sources.r1.deletePolicy=never

ai.sources.r1.fileHeader=false

a1.sources.r1.fileHeaderKey=file

a1.sources.r1.basenameHeader=false

a1.sources.r1.basenameHeaderKey=basename

a1.sources.r1.batchSize=100

a1.sources.r1.inputCharset=UTF-8

a1.sources.r1.bufferMaxLines=1000

a1.channels.c1.type=memory

a1.sinks.s1.type=logger

a1.sinks.s1.maxBytesToLog=16

a1.sources.r1.channels=c1

a1.sinks.s1.channel=c1

启动Agent

[root@tianqinglong flumeconf]# flume-ng agent -c …/conf -f ./spool-logger.conf -n a1 -Dflume.root.logger=INFO,console

测试

[root@tianqinglong ~]# for i in seq 1 10 ; do echo $i >> / h o m e / f l u m e / s p oo l /$ i;done

案例演示：http+mem+logger

http:表示数据来源是http网络协议,一般接收的请求为get或post请求.所有的http请求会通过插件格式的Handle转化为一个flume的Event数据.

mem:表示用内存传输通道

logger:表示输出格式为Logger格式

配置方案

[root@qianfengo1 flumeconf]# vi http-logger.conf

a1.sources = r1

a1.channels = c1

a1.sinks = s1

a1.sources.r1.type=http

a1.sources.r1.bind = tianqinglong01

a1.sources.r1.port = 6666

a1.sources.r1.handler = org.apache.flume. source.http.JSONHandler

a1.channels.c1.type=memory

a1.sinks.s1.type=logger

a1.sinks.s1.maxBytesToLog=16
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注：Java）

总结：心得体会

既然选择这个行业，选择了做一个程序员，也就明白只有不断学习，积累实战经验才有资格往上走，拿高薪，为自己，为父母，为以后的家能有一定的经济保障。

学习时间都是自己挤出来的，短时间或许很难看到效果，一旦坚持下来了，必然会有所改变。不如好好想想自己为什么想进入这个行业，给自己内心一个答案。

面试大厂，最重要的就是夯实的基础，不然面试官随便一问你就凉了；其次会问一些技术原理，还会看你对知识掌握的广度，最重要的还是你的思路，这是面试官比较看重的。

最后，上面这些大厂面试真题都是非常好的学习资料，通过这些面试真题能够看看自己对技术知识掌握的大概情况，从而能够给自己定一个学习方向。包括上面分享到的学习指南，你都可以从学习指南里理顺学习路线，避免低效学习。

大厂Java架构核心笔记（适合中高级程序员阅读）：

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！
后的家能有一定的经济保障。

大厂Java架构核心笔记（适合中高级程序员阅读）：

[外链图片转存中…(img-tGKCrGVX-1713783557299)]

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！