flume
爱吃甜食_
一点点进步,让编程更有趣
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flume Memory Channel调优
Flume Memory Channel调优原文地址读后感原文版本一版本二版本三版本四版本五 原文地址 原文地址 读后感 通过加大batch size和transaction size来提高source到channel和channel到sink的吞吐量 通过加大capactiy来提高channel的容量,防止频繁填充率过高阻塞 通过增加多个channel来减小每个channel的填充量,减小flume节点宕机引起的数据丢失 此外,还可以修改flume-env.sh中的Xms和Xmx来增加flume的JVM转载 2020-12-06 13:12:45 · 1615 阅读 · 0 评论 -
flume flume自定义sink过滤数据库字段
flume自定义sink过滤数据库字段理论准备数据准备代码java代码flume配置文件官网地址 理论准备 自定义sink需要继承AbstractSink类,并实现以下3个方法 start() process() stop() transaction: 数据准备 # 创建一个数据库 CREATE DATABASE IF NOT EXISTS mysqlsource DEFAULT CHARACTER SET utf8 ; USE mysqlsource; #v 创建一个表,用户保存拉取目标表位置的信息原创 2020-09-02 13:48:08 · 458 阅读 · 0 评论 -
flume flume自定义source从数据库采集数据
flume自定义source链接数据库理论准备自定义sourcePollableSource实现流程自定义flume开发流程示例需求数据准备pom文件IDEA工程MYSQL配置代码实现封装数据库操作自定义sourceflume配置文件官网地址 理论准备 自定义source 自定义source可以实现一些原生source没有的功能,如:从网上下载,链接数据库等 自定义的消息有两种类型Source PollableSource (轮训拉取) EventDrivenSource (事件驱动) 两者的区别在于:原创 2020-09-01 17:35:12 · 1766 阅读 · 1 评论 -
flume flume自定义拦截器
flume自定义拦截器flume自带拦截器flume自定义拦截器flume Interceptor源码示例原始数据格式处理后的数据第一个flume代码(自定义flume拦截器)pom文件java代码flume配置文件 flume自带拦截器 timestamp 拦截器:在Event Header中添加时间戳。 Host 拦截器:在Event Header中添加agent运行机器的Host或IP。 Static 拦截器:在Event Header中添加自定义静态属性。 Remove Header拦截器:可移除原创 2020-09-01 11:18:57 · 1325 阅读 · 0 评论 -
flume json监控
@[TOC](flume json监控) flume支持的监控类型 flume支持多种监控 JMX Reporting JSON Reporting Ganglia Custom Reporting 官网地址 flume json监控 添加如下两个参数 flume.monitoring.type=http :指定Reporting的方式为http flume.monitoring.port :指定了http服务的端口号。 -Dflume.monitoring.type=http -Dflume.mo原创 2020-08-31 17:35:00 · 434 阅读 · 0 评论 -
flume flume静态拦截器
flume静态拦截器flume静态拦截器示例服务器A和服务器B代码服务器C代码 flume静态拦截器 静态拦截器,用于在events header中加入一组静态的key和value. filePrefix只能在在event的header加固定的前缀,无法实现根据不同key在指定的目录下生成不同文件的效果。 示例 需求 A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log 现在需要把A、B 机器中的access.log、nginx.log、web.log 采集汇原创 2020-08-31 17:23:31 · 327 阅读 · 0 评论 -
flume flume负载均衡(load balance)
flume负载均衡load balance简介简化版load balance服务器规划node01代码node02代码node03代码 简介 负载均衡Sink 选择器提供了在多个sink上进行负载均衡流量的功能。 它维护一个活动sink列表的索引来实现负载的分配。 默认支持了轮询(round_robin)和随机(random)两种选择机制分配负载。 同样支持从AbstractSinkSelector继承写一个自定义的选择器。 工作时,此选择器使用其配置的选择机制选择下一个sink并调用它。 如果原创 2020-08-30 15:21:33 · 1132 阅读 · 0 评论 -
flume flume高可用配置
flume高可用配置角色分配 角色分配 名称 HOST 角色 Agent1 Web Server Collector1 node02 AgentMstr1 Collector2 node03 AgentMstr2 Agent1数据分别流入到Collector1和Collector2。 3个角色agent1 agent2(collector1) agent3(collector2) 分别位于node01 node02 node03 ...原创 2020-08-30 00:43:44 · 409 阅读 · 0 评论 -
flume flume跨服务器采集数据:多个agent串联
flume跨服务器采集数据:多个agent串联前言示意图两个agent串联多个agent串联到一个agent需求代码第一个agent负责从数据源采集文件并传输到第二个agent第二个agent负责接收第一个agent的数据并sink到HDFS 前言 在大数据的采集中,我们常用Flume来进行数据的采集,一般的我们会从Web Server服务器中收集数据,将数据存储在另一台服务器的hdfs文件系统做离线分析或者sink到另一台服务器的kafka消息队列中做实时流式计算 示意图 两个agent串联 多个age原创 2020-08-29 17:35:16 · 1058 阅读 · 0 评论 -
flume tail-dir source实现断点续传采集
flume断点续传tail-dir source实现断点续传采集flume配置文件agentsourcechannelsink整合 tail-dir source实现断点续传采集 tail-dir 使用flume内置json文件记录读取位置,实现了断点续传,避免了flume宕机后重启的脏数据问题。 tail-dir的优势 可以监控多个目录 可以使用正则表达式监控不断变化的文件名 需求 采集需求,使用tail-dirsource监听某个目录下的多个文件,并且实现文件的断点续传功能 flume配置文件 v原创 2020-08-28 10:37:40 · 1612 阅读 · 1 评论 -
flume flume source组件
flume source组件flume source组件 flume source组件 Source:对接各种外部数据源,将收集到的事件发送到Channel中,一个source可以向多个channel发送event,Flume内置非常丰富的Source,同时用户可以自定义Source ...原创 2020-08-27 15:07:43 · 265 阅读 · 0 评论 -
flume flume基础名字释义
flume基础名字释义Flume EventFlume AgentFlume SourceFlume ChannelFlume SinkFlume ClientApache Flume InterceptorsChannel SelectorsSink Processors Flume Event 在Flume内部传输的数据的基本单位就是Event。 它包含字节数组的PayLoad。可以通过Header将信息从输出源传输到目的地。 请参考下图的Flume Event结构。 Flume Agent 在Apa转载 2020-08-27 15:04:56 · 252 阅读 · 0 评论 -
flume flume采集目录到HDFS
flume采集目录到HDFS采集新增文件到HDFSflume配置文件采集指定文件新增内容到HDFS 采集新增文件到HDFS 结构示意图 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 需求分析: 根据需求,首先定义以下3大要素 数据源组件,即source ——监控文件目录 : spooldir spooldir特性: 1.监视一个目录,只要目录中出现新文件,就会采集文件中的内容 2.采集完成的文件,会被agent自动添加一个后缀:COMPLETE原创 2020-08-27 14:59:10 · 2189 阅读 · 0 评论 -
flume-1 flume概述
flume概述前言Flume基本介绍运行机制Flume采集系统结构图简单结构复杂结构 前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: Flume基本介绍 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集 文件 socket数据包 文件、文件夹 kafka 等各种形式源数据,原创 2020-08-25 10:49:49 · 196 阅读 · 0 评论
分享