文章目录
一个完整的大数据平台,一般包括以下几个过程:数据采集( Flume)、数据存储(HDFS, HBase)、数据管理(DMP)、数据处理(MapReduce)、数据展现(可视化、报表和监控)。
一、Flume概述
Flume最早是Cloudera提供的日志收集系统,后来贡献给Apache。所以目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。
Flume是一个高可用的,高可靠的鲁棒性(robust 健壮性),分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
当前Flume有两个版本Flume 0.9X版本的统称Flume-og(og: old generation),Flume1.X版本的统称Flume-ng(ng: new generation)。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。
二、两个版本差异
1、Flume0.9.x版本
Flume-og采用了多Master的方式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据