Flume理解笔记

本文深入探讨了使用Flume将数据传输至HDFS的过程,详细解析了Source、Channel与Sink组件的功能,尤其针对Sink配置进行了全面解读,包括type、path、filePrefix等关键参数,帮助读者掌握高效配置Flume-HDFS数据管道的技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

学习几天flume后的一些浅层次的理解

Flume组件再认识

Source

source组件定义了数据的来源,也就是从哪里获取数据

Channel

channel组件定义了数据获取到如何缓存

Sink

sink组件定义了把数据如何输出、输出到哪里

感觉source和channel都很固定,sink则需要更多的配置,比如说输出到哪里,收集多久落地一次数据,收集多少数据落地一次,以及文件名的配置等,所以下面主要整理的内容为配置Sink落地到hdfs的内容

type

既然是落地到hdfs那sink的type当然为hdfs

path

指定数据在hdfs上的保存路径

hdfs://192.168.1.101:9000/flume

filePrefix

保存文件名称的前缀

fileSuffix

保存文件名称的后缀

round

是否按时间创建文件夹

roundValue

创建文件夹的时间周期

roundUnit

定义周期时间单位

useLocalTimeStamp

是否启动本地时间戳,一般为true

bacthSize

flush到hdfs需要events积攒的数量

fileType

保存文件的类型,一般为DataStream(一般文本格式)

rollInterval

生成一个新文件的时间(单位:秒)

rollSize

接收多少数据生成一个新文件(单位:字节——>byte)

rollCount

设为0则文件的生成与events数量无关

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值