9.5 Sqoop和Flume
9.5.3 Flume基本架构和安装
(1) Flume基本架构
在一个完整的大数据处理系统中,除了HDFS,Mapreduce组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集的数据输出到HDFS、Hbase、kafka等众多外部存储系统中,Flume架构图如下图9-16所示。
Flume的设计是Agent,本身是一个java进程,运行在日志收集节点中,Agent里面包含三大核心组件:source,channel和sink,类似生产者、仓库、消费者的架构。
-
source是专门用来收集数据的,可以处理各种类型、各种格式的日志数据
-
source组件把数据收集以后,临时存放在channe