
flume
文章平均质量分 90
大数据之flume
爱上口袋的天空
一步一流年,止不住的脚步,挽不回的青春!
展开
-
Flume安装部署以及简单案例入门
注:Linux 中储存文件元数据的区域就叫做 inode,每个 inode 都有一个号码,操作系统用 inode 号码来识别不同的文件,Unix/Linux 系统内部不使用文件名,而使用 inode 号码来识别文件。若遇到文件定期更改文件名,并且重新创建一个新原始文件的名字的文件,监控到并上传的数据将是累积的文件内容,并不是更新的内容数据,导致数据重复。修改源码中更新和读取的操作,然后将修改好的文件打包下载到本地,再上传到lib目录下进行源码替换,重新启动监控文件夹命令。要想读取 Linux。转载 2023-10-07 09:18:10 · 2904 阅读 · 0 评论 -
Flume的定义及组成架构
Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用是实时读取服务器本地磁盘的数据,把数据写到HDFS。转载 2023-10-06 21:56:11 · 194 阅读 · 0 评论 -
Flume进阶之自定义拦截器 Interceptor
/声明一个存放事件的集合@Override//初始化存放事件的集合//单个事件拦截 @Override//1.获取事件中的头信息//2.获取事件中的 body 信息//3.根据 body 中是否有"atguigu"来决定添加怎样的头信息//4.添加头信息} else {//4.添加头信息//批量事件拦截 @Override//1.清空集合addHeaderEvents.clear();//2.遍历 events。转载 2023-10-07 20:38:48 · 583 阅读 · 0 评论 -
Flume进阶之复制和多路复用、负载均衡和故障转移、聚合案例
hadoop102 上的Flume-1 监控文件/opt/module/flume-1.9.0/group.log,hadoop103 上的Flume-2 监控某一个端口的数据流,Flume-1 与 Flume-2 将数据发送给 hadoop104 上的 Flume-3,Flume-3 将最终数据打印到控制台。故障转移需求:使用 Flume1 监控一个端口,其 sink 组中的 sink 分别对接 Flume2 和 Flume3,采用FailoverSinkProcessor,实现故障转移的功能。转载 2023-10-07 15:53:04 · 430 阅读 · 0 评论 -
Flume进阶之Flume Agent 内部原理和拓扑结构
最常用的模式,日常 web 应用通常分布在多个服务器,用 flume 的聚合方式,每台服务器部署一个 flume 采集日志,传送到一个集中收集日志的flume,再由此 flume 上传到 hdfs、hive、hbase 等,进行日志分析。这种模式可以将相同数据复制到多个 channel 中,或者将不同数据分发到不同的 channel 中,sink 可以选择传送到不同的目的地。多个flume在端口出顺序连接,从最初的 source 开始到最终 sink 传送的目的存储系统。转载 2023-10-07 10:17:40 · 146 阅读 · 0 评论