1. flume是什么
flume是一种日志收集或数据采集工具,可以从各种各样的数据源(服务器)采集数据传输(汇聚)到大数据生态的各种存储系统中(hdfs,hbase,kafka)等
2. flume的工作原理是什么:
flume是一种日志收集和数据采集的工具,将flume部署在日志服务器上,将日志文件通过source从日志服务器上读取文件,然后写入到channel中,然后sink在从channel中读取数据,写入到hdfs文件系统中
3. flume的核心架构
flume中的核心是由一个个agent组成的一个简单或者是复杂的传输通道,对于每一个agent都是从数据源读取数据,并发往下一个目的地,agent中三个组件的设计思想主要是为了,source和sink之间解耦合,实现异步操作.
4. flume 中的核心概念:
Source:
是agent中的采集组件,用来和数据源对接,以获取数据,source有各种各样的内置实现,比如我们实际生产中经常用到的taildir source 组件
Sink:
sink组件是agent中的下沉组件,用于往下一级agent传递数据或者是向最终的存储系统传递数据,sink组件从channel中取出event然后根据目标存储的需求,转成其他形式输出;
Channel:
传输通道组件,用来将source读取数据传递到sink过程中间的一个缓存组件
Event:
数据在channel中封装形式,