Flume 各种坑

最新推荐文章于 2025-05-25 00:42:05 发布

原创

最新推荐文章于 2025-05-25 00:42:05 发布 · 4.5w 阅读

76 ·

CC 4.0 BY-SA版权

本文介绍了使用Flume收集和传输数据时遇到的配置问题，包括Sink配置错误导致的Kafka Event Headers乱码，以及Source配置技巧和坑点，如监控子目录、处理JSON数据格式的限制等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 背景

最近一段时间在做安全大数据分析环境搭建以及初步的数据采集、录入工作，这个过程中用到了 Hadoop+HBase+Flume+Kafka这套大数据分析的工具。在数据分析环境架构中，Flume-1.7.0 主要用来收集各种来源、形式的数据，并把数据传给 Kafka 集群，由 Kafka 集群统一分发给 HBase集群。

用 Flume ，主要用到的 Source 是 spooldir source 和 http-json source，Sink 就主要是 Kafka Sink，配置非常灵活、功能也很强大。但在使用的过程中踩了不少坑，撰文记录一下比较重要的几个。

NOTE:
Flume-ng 的Agent 由三部分组成：Source/Channel/Sink，Source 相当于数据录入源，是 生产者 的角色； Channel 相当于数据传输通道；Sink 相当于数据接收端，是消费者的角色。在 Flume-ng 中，数据流向是 Source-->Channel-->Sink。