Flume-ng HDFS sink原理解析

转载于 2017-11-23 23:31:00 发布 · 150 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/476879

文章标签：

本文详细解析了HDFS Sink的处理流程，包括如何循环处理数据批次、使用LRU缓存管理文件处理器、根据配置参数创建和管理Bucket Writer实例、以及如何将数据异步写入HDFS并进行日志滚动。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS sink主要处理过程在process方法：

//循环batchSize次或者Channel为空

for(txnEventCount = 0; txnEventCount < batchSize; txnEventCount++) {

//该方法会调用BasicTransactionSemantics的具体实现

Event event = channel.take();

if (event == null) {

break;

}

......

//sfWriter是一个LRU缓存，缓存对文件Handler,最大打开文件由参数maxopenfiles控制

BucketWriter bucketWriter = sfWriters.get(lookupPath);

// 如果不存在，则构造一个缓存

if (bucketWriter == null) {

//通过HDFSWriterFactory根据filetype生成一个hdfswriter，由参数hdfs.Filetype控制；eg:HDFSDataStream

HDFSWriter hdfsWriter = writerFactory.getWriter(fileType);

//idleCallback会在bucketWriter flush完毕后从LRU中删除；

bucketWriter = new BucketWriter(rollInterval, rollSize, rollCount,

batchSize, context, realPath, realName, inUsePrefix, inUseSuffix,

suffix, codeC, compType,hdfsWriter, timedRollerPool,

proxyTicket, sinkCounter, idleTimeout, idleCallback,

lookupPath, callTimeout, callTimeoutPool);

sfWriters.put(lookupPath, bucketWriter);

}

......

// track一个事务内的bucket

if (!writers.contains(bucketWriter)) {

writers.add(bucketWriter);

}

// 写数据到HDFS；

bucketWriter.append(event);->

open();//如果底层支持append，则通过open接口打开；否则create接口

//判断是否进行日志切换

//根据复制的副本书和目标副本数做对比，如果不满足则doRotate=false

if(doRotate) {

close();

open();

}

HDFSWriter.append(event);

if(batchCounter == batchSize) {//如果达到batchSize行进行一次flush

flush();->

doFlush()->

HDFSWriter.sync()->

FSDataoutputStream.flush/sync

}

// 提交事务之前，刷新所有的bucket

for(BucketWriter bucketWriter : writers){

bucketWriter.flush();

}

transaction.commit();

这里，无论是BucketWriter执行append，sync还是rename等操作都是提交到一个后台线程池进行异步处理:callWithTimeout，这个线程池的大小是由hdfs.threadsize来设置；

本文转自MIKE老毕 51CTO博客，原文链接：http://blog.51cto.com/boylook/1298627，如需转载请自行联系原作者

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。