前言
学习几天flume后的一些浅层次的理解
Flume组件再认识
Source
source组件定义了数据的来源,也就是从哪里获取数据
Channel
channel组件定义了数据获取到如何缓存
Sink
sink组件定义了把数据如何输出、输出到哪里
感觉source和channel都很固定,sink则需要更多的配置,比如说输出到哪里,收集多久落地一次数据,收集多少数据落地一次,以及文件名的配置等,所以下面主要整理的内容为配置Sink落地到hdfs的内容
type
既然是落地到hdfs那sink的type当然为hdfs
path
指定数据在hdfs上的保存路径
hdfs://192.168.1.101:9000/flume
filePrefix
保存文件名称的前缀
fileSuffix
保存文件名称的后缀
round
是否按时间创建文件夹
roundValue
创建文件夹的时间周期
roundUnit
定义周期时间单位
useLocalTimeStamp
是否启动本地时间戳,一般为true
bacthSize
flush到hdfs需要events积攒的数量
fileType
保存文件的类型,一般为DataStream(一般文本格式)
rollInterval
生成一个新文件的时间(单位:秒)
rollSize
接收多少数据生成一个新文件(单位:字节——>byte)
rollCount
设为0则文件的生成与events数量无关