
Flume
飞向札幌的班机
十五年+程序员,喜欢搞开源,欢迎一起交流学习
展开
-
Flume快速入门(四):File Channel之FlumeEventQueue
虽然我们把FlumeEventQueue想象成Event指针的内存队列,但FlumeEventQueue中的内部实现是很绕的,不跑跑Flume的单元测试,很容易看晕。本文的目的就是通过简化模型来剖析FlumeEventQueue中的四种操作:addTail、removeHead、addHead和remove。 上一篇博文地址:http://manzhizhen.iteye.com/原创 2016-09-21 13:06:16 · 904 阅读 · 0 评论 -
Flume快速入门(三):File Channel之写Event
有了前两篇博文的基础,相信大家对Flume Agent的内部结构已经有了个初步的了解,现在我们来详细介绍最常用的文件通道——File Channel,本篇博客主要介绍Eevnt是如何完成写到File Channel这一操作的。 上一篇: http://manzhizhen.iteye.com/blog/2298159 Channel是联系Source和Sink的桥梁原创 2016-09-21 13:06:10 · 4513 阅读 · 1 评论 -
Flume快速入门(二):设计从简
上一篇文章简单介绍了下Flume的背景,接下来本文说说Flume NG的内部设计。注意:本文针对的是Flume1.6.0版本。 上一篇:http://manzhizhen.iteye.com/blog/2298150 我们先来看看为什么需要Flume,在大数据分析领域,最重要的就是数据,而日志作为首选数据来源之一,有着举足轻重的地位,如今企业的线上业务服务器,少则几十台原创 2016-09-21 13:06:04 · 611 阅读 · 0 评论 -
Flume快速入门(一):背景简介
Flume由Cloudera于2009年7月开源,后变成Apache的顶级项目之一,由Java语言开发,致力于解决大量日志流数据的迁移问题。日志是大数据分析领域的主要数据来源之一,如何将线上成百上千的业务系统日志高效、可靠的迁移到我们的hdfs中去,Flume提供了一个很好的解决方案。Flume——一个纯粹为流式数据迁移而生的分布式服务。 现如今,几乎所有开源的成熟的解决方案都说自原创 2016-09-21 13:05:59 · 726 阅读 · 0 评论 -
Flume快速入门(五):File Channel之重播(replay)
当FlumeChannel启动时,或者故障恢复时,会经历一次重播(replay)过程,重播的目的就是还原上一次的“现场”,当然,最主要的就是恢复FlumeEventQueue中的内存队列相关数据。重播的主要实现是有Log类来做的,Log类的replay实现了整个重播过程,简单来说,重播过程分为如下几个步骤: 步骤1:获取检查点文件的独占锁(checkpointWriterLock.lock原创 2016-09-21 13:05:41 · 1300 阅读 · 0 评论