
Flume
Auraros
gdut一个正在艰苦转行的孩子
展开
-
Flume13 聚合组
Flume13 聚合组1) 案例需求:hadoop103 上的 Flume-1 监控文件/opt/module/group.log,hadoop102 上的 Flume-2 监控某一个端口的数据流,Flume-1 与 Flume-2 将数据发送给 hadoop104 上的 Flume-3,Flume-3 将最终数据打印到控制台。2)需求分析:实现步骤准备工作分发 Flume[atguigu@hadoop102 module]$ xsync flume在hadoop102、ha原创 2020-12-01 18:41:25 · 300 阅读 · 1 评论 -
Flume12 负载均衡
Flume12 故障转移案例需求使用Flume监控一个端口,其sink组中的sink分别对接Flume2 和 Flume3,采用FailoverSinkProcessor,实现故障转移的功能。需求分析实现步骤准备工作在/opt/module/flume/job 目录下创建 group2 文件夹[atguigu@hadoop102 job]$ cd group2/创建 flume-netcat-flume.conf配 置 1 个接收 日 志 文 件 的 source 和 1 个原创 2020-12-01 18:40:08 · 170 阅读 · 0 评论 -
Flume11 故障转移
Flume11 负载均衡和故障转移案例需求使用Flume监控一个端口,其sink组中的sink分别对接Flume2 和 Flume3,采用FailoverSinkProcessor,实现故障转移的功能。需求分析实现步骤准备工作在/opt/module/flume/job 目录下创建 group2 文件夹[atguigu@hadoop102 job]$ cd group2/创建 flume-netcat-flume.conf配 置 1 个接收 日 志 文 件 的 source原创 2020-12-01 18:38:24 · 189 阅读 · 0 评论 -
Flume10 单数据源和多出口
Flume10 单数据源和多出口案例需求使用Flume-1监控文件变动,Flume-1将变动内容传递给 Flume-2,Flume-2负责存储到HDFS。同时Flume-1将变动内容传递给Flume-3,Flume-3负责输出到Local FileSystem。需求分析实现步骤准备工作在/opt/module/flume/job 目录下创建 group1 文件夹[atguigu@hadoop102 job]$ cd group1/在/opt/module/datas/目录下创建 f原创 2020-12-01 18:37:28 · 179 阅读 · 0 评论 -
Flume9 拓扑结构
Flume9 拓扑结构简单串联这种模式是将多个Flume顺序连接了起来,从最初source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的Flume数量,Flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点Flume宕机,会影响整个传输系统。复制和多路复用Flume 支持将事件流向一个或多个目的地,这种模式可以将相同数据复制到多个channel中,或者将不同数据分发到不同的channel中,sink可以选择传送到不同的目的地。负载均衡和故障转移Flume支持使用将多原创 2020-12-01 18:36:21 · 229 阅读 · 0 评论 -
Flume8 Agent内部原理
Flume8 Agent内部原理拦截器拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。flume内置了很多拦截器,并且会定期的添加一些拦截器,在这里列出一些flume内置的,经常使用的拦截器。Timestamp Interceptor(时间戳拦截器)flume中一个最经常使用的拦截器 ,该拦截器的作用是将时间戳插入到flum原创 2020-11-23 10:01:21 · 325 阅读 · 0 评论 -
Flume7 事务
Flume7 事务重点:两个事务: Put事务 和 Take事务Put事务应该做的事情:- doPut: 将批量数据先写入临时缓存区putList- doCommit: 检查channel内存队列是否足够合并- doRollback: channel内存空间不足,回滚数据Take事务应该做的事情- doTake: 将数据取到临时缓冲区takeList,并将数据发送到HDFS- doCommit:如果数据全部发送成功,则清除临时缓冲区takeList- doRollback原创 2020-11-23 10:00:22 · 179 阅读 · 0 评论 -
Flume6 实时监控目录下的多个追加文件
Flume6 实时监控目录下的多个追加文件Exec source 适用于监控一个实时追加的文件,但不能保证数据不丢失;Spooldir Source 能够保证数据不丢失,且能够实现断点续传,但延迟比较高,不能实时监控;而Taildir Source既能实现断点续传,又可以保证数据不丢失,还能够进行实时监控。案例需求使用Flume监听整个目录实时追加文件,并上传至 HDFS需求分析实验步骤建配置文件 flume-file-logger.conf创建一个文件[atguigu@hadoop1原创 2020-11-23 09:59:16 · 307 阅读 · 1 评论 -
Flume5 实时监控目录下多个新文件
Flume5 实时监控目录下多个新文件案例需求:使用Flume监听整个目录的文件,并上传至HDFS需求分析:实践步骤创建配置文件 flume-dir-hdfs.conf创建一个文件[atguigu@hadoop102 job]$ touch flume-dir-hdfs.conf打开文件[atguigu@hadoop102 job]$ vim flume-dir-hdfs.conf添加如下内容a3.sources = r3a3.sinks = k3a3.channels原创 2020-11-23 09:57:17 · 344 阅读 · 0 评论 -
Flume4 实时监控单个追加文件
Flume4 实时监控单个追加文件需求案例需求: 实时监控Hive日志,并上传到HDFS中存在单点故障,因为如果agent故障后,可能会丢失数据需求分析实验步骤第一个先提取日志数据输出到控制台创建 file-flume-logger.conf 文件# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sour原创 2020-11-23 09:53:42 · 263 阅读 · 0 评论 -
Flume3 监控端口数据
Flume3 监控端口数据更多整理都在我的github上:Auraros欢迎大家。案例需求使用Flume 监听一个端口,收集该端口数据,并打印到控制台需求分析实现步骤安装 telnet 工具将 rpm 软 件 包 (xinetd-2.3.14-40.el6.x86_64.rpm 、 telnet-0.17-48.el6.x86_64.rpm 和telnet-server-0.17-48.el6.x86_64.rpm)入/opt/software 文件夹下面。执行 RPM 软件包安装命令:原创 2020-11-23 09:51:11 · 265 阅读 · 0 评论 -
Flume2 下载安装
Flume2 下载安装Flume 安装地址Flume 官网地址http://flume.apache.org/文档查看地址http://flume.apache.org/FlumeUserGuide.html下载地址http://archive.apache.org/dist/flume/安装部署将 apache-flume-1.7.0-bin.tar.gz 上传到 linux 的/opt/software 目录下,并解压到/opt/module/目录下[atg原创 2020-12-01 18:32:29 · 153189 阅读 · 0 评论 -
Flume1 概述
Flume1 概述更多整理都在我的github上:Auraros欢迎大家。定义Flume是Cloudera提供一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume基于流失架构,灵活简单。Flume主要用于对Java后台日志以及Python爬虫数据的数据实时读取进行一个传输,传输到HDFS中。基础架构1. source: 一个存储数据的地方,将读入的数据存储起来2. channel:管道,将数据运输到输出端口的管道(防止读入比写出快而导致崩溃)3. sink: 输出原创 2020-11-23 09:48:57 · 204 阅读 · 0 评论