
Flume
Flume
大数据点滴
不忘初心,方得始终。
展开
-
Flume中采用TaildirSource多文件监控实时采集利弊
Flume1.7.0加入了taildirSource作为agent的source。可以说是spooling directory source+execSource的结合体。可以可以监控多个目录,并且使用正则表达式匹配该目录中的文件名进行实时收集。-- 优点: 1.实现多文件监控 2.实现断点续传-- 测试断点续传: 当flume由于未知错误停止运行后,日志仍然在不断增长,此时手动重新启动flume,flume可以根据记录的采集点接续上次位置继续采集。-- 根据配置信息原创 2020-10-13 10:42:24 · 5351 阅读 · 1 评论 -
Flume数据流监控
1、 Ganglia的安装与部署注:此安装的背景是:3台服务器1)三台机器安装epel源[Mark@hadoop102 flume]$ sudo yum install -y epel-release2) 在102安装web,meta和monitor[Mark@hadoop102 flume]$ sudo yum -y install ganglia-gmetad ganglia-web ganglia-gmond3) 在103、104安装monitor[Mark@hado原创 2020-08-20 00:09:33 · 3852 阅读 · 0 评论 -
Flume介绍和常见应用场景
目录一、什么是Flume?二、安装三、Flume目录结构四、Flume Agent组件(1)Source(2)channel(3)sink五、Flume有哪些优缺点(1)优点(2)缺点六、应用场景(1)电子商务网站(2)内容推送(3)ETL工具七、其他类似Flume框架八、Flume插件九、启动参数详解总结一、什么是Flume?Flume是由Cloudera软件公司提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和.原创 2020-08-07 01:09:44 · 6331 阅读 · 0 评论 -
Flume参数调优
1)Source增加Source个数(使用Tair Dir Source时可增加FileGroups个数)可以增大Source的读取数据的能力。例如:当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录,同时配置好多个Source 以保证Source有足够的能力获取到新产生的数据。batchSize参数决定Source一次批量运输到Channel的event条数,适当调大这个参数可以提高Source搬运Event到Channel时的性能。2)Channeltype 选择memo.原创 2020-08-03 19:52:58 · 3810 阅读 · 0 评论 -
Flume拓扑结构
1、 简单串联这种模式是将多个flume顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量,flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flume宕机,会影响整个传输系统。两个channel提高传输效率、增加容错性。2、 复制和多路复用Flume支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel中,或者将不同数据分发到不同的channel中,sink可以选择传送到不同的目的地。原创 2020-08-02 14:01:39 · 1592 阅读 · 0 评论 -
Flume Agent内部原理
一、原理流程图拦截器链 Intercepter:进行简单的数据清洗和过滤如果只有一个Sink和一个Channel的话那就直接传过来了如果有多个Sink的话想要接受Channel的的数据必须要经过Sink组(也即是SinkProcessor),然后SinkProcessor启动sink,sink不断到channel中去轮询,将channel中的event事件拿过来。注意:同一个sink组(好多个sink)channel中的同一个数据只能被拉取一次SinkProcessor有如下三种原创 2020-07-31 21:07:16 · 1419 阅读 · 0 评论 -
Flume丢失数据的问题
在一些网络资料中有看到当Flume的数据量达到70MB/s以上时,就会出现丢失数据的情况。但是根据Flume的架构原理,采用FileChannel的Flume是不可能丢失数据的,因为其内部有完善的事务机制(ACID)。Source到Channel是事务性的,Channel到Sink也是事务性的,这两个环节都不可能丢失数据。唯一可能丢失数据的是Channel采用MemoryChannel,在agent宕机时候导致数据在内存中丢失;Channel存储数据已满,导致Source不再写入数据,造转载 2020-07-31 20:26:15 · 3402 阅读 · 0 评论 -
Flume事务机制
一、Flume的事务机制Flume的事务机制类似数据库的事务机制:Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。在这里插入图片描述spooling directory source 为文件的每一行创建一个事件,一旦事务中所有的事件全部传递到channel且提交成功,那么source就将该文件标记为完成。同理,事务以类似的方式处理从channel到sink的传递过程,如果因为某种 原因使得事件无法记录,那么事务将会回滚。且所有的事件都会保原创 2020-07-31 20:12:17 · 964 阅读 · 0 评论 -
Flume的安装部署
1.1 安装下载地址Flume官网地址:http://flume.apache.org/文档查看地址:http://flume.apache.org/FlumeUserGuide.html下载地址:http://archive.apache.org/dist/flume/1.2 安装部署将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下原创 2020-07-31 19:20:38 · 365 阅读 · 0 评论 -
Flume基础与架构
1.1 定义Flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方,比如送到HDFS、Kafk等Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume再删除己缓存的数据。1.2 Flume特性(1)Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。(2)Flume可以原创 2020-07-31 18:46:22 · 717 阅读 · 0 评论