
Apache Flume
镜子里的宇宙
这个作者很懒,什么都没留下…
展开
-
Apache Flume 数据流监控
数据流监控Ganglia的安装与部署操作Flume测试监控Ganglia的安装与部署安装httpd服务与phpyum -y install httpd php安装其他依赖yum -y install rrdtool perl-rrdtool rrdtool-develyum -y install apr-devel安装gangliayum -y install ganglia-gmetad yum -y install ganglia-webyum install -y原创 2020-12-03 17:02:42 · 243 阅读 · 0 评论 -
Apache Flume 拦截器
Apache Flume 拦截器拦截器Flume自定义拦截器案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求:把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为:/source/logs/access/20200101/**/source/logs/nginx/20200101/**/source/logs/web/202001原创 2020-12-03 16:52:27 · 301 阅读 · 0 评论 -
Apache Flume load-balance、failover
load-balance、failoverflume的高可用搭建failover案例flume 的负载均衡 load balancer在完成单点的Flume NG搭建后,下面我们搭建一个高可用的Flume NG集群,架构图如下所示:Flume的Agent和Collector分布如下表所示:图中所示,Agent1数据分别流入到Collector1和Collector2,Flume NG本身提供了Failover机制,可以自动切换和恢复。在上图中,有3个产生日志服务器分布在不同的机房,要把所有的日志都原创 2020-12-03 16:15:57 · 183 阅读 · 1 评论 -
Apache Flume 简单案例
Apache Flume 简单案例采集目录到HDFS采集文件到HDFS两个agent级联采集目录到HDFS采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素采集源,即source——监控文件目录 : spooldir下沉目标,即sink——HDFS文件系统 : hdfs sinksource和sink之间的传递通道——channel,可用file channel 也可以用内存channel采集目录到HDF原创 2020-12-03 16:04:43 · 132 阅读 · 0 评论 -
Apache Flume 概述 & 安装部署
Apache Flume介绍概述运行机制Flume采集系统结构图简单结构复杂结构介绍在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(原创 2020-12-03 15:40:54 · 300 阅读 · 0 评论