目录
Apache Hadoop生态-目录汇总-持续更新
系统环境:centos7
Java环境:Java8
一:Flume 概述
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单(实时增量添加到hdfs)。
Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS(只能识别文本文件)

二:Flume 基础架构

2.1:Agent
Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。
Agent 主要有 3 个部分组成,Source、Channel、Sink。
2.2:Source
Source 是负责接收数据到 Flume Agent 的组件。
Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory(采集文件)、netcat(采集端口数据)、taildir、sequence generator、syslog、http、legacy

本文详细介绍了Apache Flume的基础架构,包括Agent、Source、Sink和Channel。Flume是一个用于收集、聚合和传输大规模日志数据的系统。Agent由Source、Channel和Sink组成,Source负责接收数据,Sink负责将数据写入存储或索引系统,Channel作为缓冲区在两者间存储数据。Channel类型包括Memory Channel、File Channel和Kafka Channel,各自有不同的特点和应用场景。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



