
1.概述
flume是高可用,高可靠的,分布式的海量日志采集、聚合和传输的系统。
2.flume的作用
用户行为日志通过前端平台存储到logservice中,通过flume的实时采集发过来的信息,然后发送到大数据平台上

3.flume架构

日志源-->source-->channel-->sink-->HDFS
agent:就是一个JVM的进程,里面包含source,channel,sink
source:采集或读取日志的组件,不同的数据源使用不同的source
channel:缓冲区,让source和sink可以在不同速率上运行
sink:负责日志的写出的组件
event:在flume里面传输的是event传输单元,header和body组成,body 里面存放数据的字节数组,header里面默认空,需要手动添加
二、配置和使用
1.配置环境变量的作用
- 方便使用命令
- 方便别的框架使用
2.flume运行agent的命令
两种写法
- flume-ng