一、Flume的概念:
Flume是Cloudera提供的一个高可用,高可靠的,分布式的海量日志采集,聚合和传输的系统。Flumens基于流式架构,灵活简单。
Flume最主要的作用就是实时的读取服务器本地磁盘的数据,然后上传到HDFS(虽然也可以直接从服务器本地上传,但是不是实时的)。
二、Flume组成架构:
1.Agent
Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是Flume数据传输的基本单元。启动agent之后,进程名称:Application
Agent主要有3个部分组成,Source、Channel、Sink。
2.Source
Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec(execute)、jms、spooling directory、netcat(读取端口数据)、sequence generator、syslog、http、legacy。
3.Channel
Channel是位于Source和Sink之间的缓冲区。因此&#x