Flume 学习笔记(2) 基本概念

本文介绍了DataFlow架构的核心组件,包括Agent、Collector和Storage。Agent负责从数据源收集数据并将其发送给Collector,Collector则进一步聚合数据以便高效地写入如HDFS等存储系统。文章还探讨了LogicalNode的概念及其在数据流处理中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

data flow:data flow描述了数据从产生,传输、处理并最终写入目标的一条路径。多个数据流被组合成logical node用来传输或聚合他们收到的数据。logical node又组合链来填充数据流。逻辑节点通过配置文件组织。下图中实线为数据流。

architecture.png

Agent:从数据源收集数据和生成日志,并传输给下一层的collector。例如,监听系统日志,监控一个web服务器的日志或者hadoop jobtracker的日志,agent 生成数据流并发送到collector,collector聚合成一个更大的数据流从而更有效的写入HDFS。

collector:收集从agent发送过来的数据并聚合成更大的数据流。

storage:数据存储层,可以保存在HDFS上。


每个logical node(agent 和 collector)都包括source和sink。source 指明logical node从哪收集数据。sink指明logical node将数据发送到哪。两个logical node的唯一不同之处就是source和sink的配置。source和sink都可以增加decorators在传输过程中进行处理。


参考:http://dongxicheng.org/search-engine/log-systems/

http://smartmessage.iteye.com/blog/1464075

http://www.db2china.net/?action-viewnews-itemid-8846


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值