
Flume
文章平均质量分 79
Flume
SuperQiu~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flume 企业真实面试题
Flume 企业真实面试题 1 、你是如何实现 Flume 数据传输的监控的 使用第三方框架 Ganglia 实时监控 Flume。 2 、Flume 的 Source,Sink,Channel 的作用?你们 Source 是什么类型? 1)作用 (1)Source 组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy (2原创 2021-12-16 14:18:14 · 122 阅读 · 0 评论 -
Flume 数据流监控
Flume 数据流监控 Ganglia 的安装与部署 Ganglia 由 gmond、gmetad 和 gweb 三部分组成。 gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用 gmond,你可以很容易收集很多系统指标数据,如 CPU、内存、磁盘、网络和活跃进程的数据等。 gmetad(Ganglia Meta Daemon)整合所有信息,并将其以 RRD 格式存储至磁盘的服务。 gweb(Ganglia Web)Ganglia原创 2021-12-15 15:04:31 · 244 阅读 · 0 评论 -
Flume 自定义Source
Hive 自定义Source 1)介绍 Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的 source 类型已经很多,但是有时候并不能 满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些 source。 官方也提供了自定义 source 的接口原创 2021-12-15 14:45:36 · 1686 阅读 · 2 评论 -
Flume 自定义 Sink
Flume 自定义 Sink 1)介绍 Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。Sink 是完全事务性的。在从 Channel 批量删除数据之前,每个 Sink 用 Channel 启动一个事务。批量事件一旦成功写出到存储系统或下一个 lume Agent,Sink 就利用 Channel 提交事务。事务一旦被提交,该 Channel 从自己的内部缓冲区删除事件。 Sink 组件目的地包括 hdfs、l原创 2021-12-15 14:53:44 · 941 阅读 · 0 评论 -
Flume 自定义Interceptor
自定义Interceptor 1)案例需求 使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。 2)需求分析 在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing的原理是,根据 event 中 Header 的某个 key 的值,将不同的 event 发送到不同的 Channel中,所以我们需要自定义一个 Intercep原创 2021-12-15 14:33:52 · 974 阅读 · 1 评论 -
Flume 企业开发案例-聚合
Flume 企业开发案例-聚合 1)案例需求: hadoop102 上的 Flume-1 监控文件/opt/module/group.log, hadoop103 上的 Flume-2 监控某一个端口的数据流, Flume-1 与 Flume-2 将数据发送给 hadoop104 上的 Flume-3,Flume-3 将最终数据打印到控制台。 2)需求分析 3)实现步骤: (1)准备工作 分发 Flume [hadoop@hadoop102 module]$ xsync flume 在 hadoop102原创 2021-12-15 14:27:16 · 114 阅读 · 0 评论 -
Flume 企业开发案例-负载均衡和故障转移
Flume 企业开发案例-负载均衡和故障转移 1)案例需求 使用 Flume1 监控一个端口,其 sink 组中的 sink 分别对接 Flume2 和 Flume3,采用FailoverSinkProcessor,实现故障转移的功能。 2)需求分析 3)实现步骤 (1)准备工作 在/opt/module/flume/job 目录下创建 group2 文件夹 (2)group2 文件夹创建 flume-netcat-flume.conf 配置 1 个 netcat source 和 1 个 channel原创 2021-12-15 14:21:18 · 136 阅读 · 0 评论 -
Flume 企业开发案例-复制和多路复用
Flume 企业开发案例-复制和多路复用 1)案例需求 使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 Local FileSystem。 2)需求分析: 3)实现步骤: (1)准备工作 在/opt/module/flume/job 目录下创建 group1 文件夹 cd group1/ 在/opt/module/datas/目录下创建 flume原创 2021-12-15 14:16:25 · 386 阅读 · 0 评论 -
Flume 进阶
Flume 进阶 1、Flume 事务 2、Flume Agent 内部原理 重要组件: 1)ChannelSelector ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型,分别是 Replicating(复制)和 Multiplexing(多路复用)。 ReplicatingSelector 会将同一个 Event 发往所有的 Channel,Multiplexing 会根据相应的原则,将不同的 Event 发往不同的 Channel。 2)原创 2021-12-15 14:10:07 · 300 阅读 · 0 评论 -
Flume 入门
Flume 入门 1、Flume 安装部署 安装地址 (1)Flume 官网地址:http://flume.apache.org/ (2)文档查看地址:http://flume.apache.org/FlumeUserGuide.html (3)下载地址:http://archive.apache.org/dist/flume/ 安装部署 (1)将 apache-flume-1.9.0-bin.tar.gz 上传到 linux 的/opt/software 目录下 (2)解压 apache-flume-1.原创 2021-12-15 14:03:15 · 1072 阅读 · 0 评论 -
Flume 概述
Flume 概述 1、Flume 定义 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。 2、Flume 基础架构 Agent Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。 Agent 主要有 3 个部分组成,Source、Channel、Sink。 Source Source 是负责接收数据到 Flume原创 2021-12-15 13:24:58 · 215 阅读 · 0 评论