
Flume
文章平均质量分 85
孙晨c
业精于勤,荒于嬉;行成于思,毁于随。
展开
-
Flume的put和take事务
文章目录数量关系putList: source在向channel放入数据时的缓冲区!put事务流程takeList: sink在向channel拉取数据时的缓冲区!take事务流程数量关系batchSize: 每个Source和Sink都可以配置一个batchSize的参数。这个参数代表一次性到channel中put|take 多少个event!batchSize <= transactionCapacitytransactionCapacity: putList和takeLi原创 2020-10-31 09:47:22 · 1095 阅读 · 1 评论 -
Flume如何使用SpoolingDirSource和TailDirSource来避免数据丢失的风险?
Execsouce的缺点execsource和异步的source一样,无法在source向channel中放入event故障时(比如channel的容量满了),及时通知客户端,暂停生成数据,容易造成数据丢失解决方案需要在发生故障时,及时通知客户端!如果客户端无法暂停,必须有一个数据的缓存机制!如果希望数据有强的可靠性保证,可以考虑使用SpoolingDirSource或TailDirSource或自己写Source自己控制!...原创 2020-10-19 15:42:57 · 1611 阅读 · 1 评论 -
Flume中常见的组件
netcat source: 类似于netcat的 nc -l 端口号!可以监听某个主机的指定端口收到的消息,将每行消息封装为一个eventexec source : 执行一个linux命令,根据命令启动的进程获取进程在标注输出输出的内容,将内容封装为event!要求进程必须是一个可以持续产生消息的进程,因为一旦进程停止,source就自动停止!logger sink: 多用于调试,可以将event由logger使用info级别,输出到控制台或文件!hdfs sink: 将ev..原创 2020-10-16 16:36:53 · 349 阅读 · 0 评论 -
Flume概述
文章目录Flume定义Flume基础架构AgentSourceSinkChannelEventFlume的核心概念Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume基础架构AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成,Source、Channel、Sink。SourceSource是负责接收数据到Flume Agent的组件。原创 2020-10-13 14:29:46 · 740 阅读 · 1 评论