十一：Flume常用Source配置-taildir-source

最新推荐文章于 2023-04-15 19:37:39 发布

原创

最新推荐文章于 2023-04-15 19:37:39 发布 · 2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Flume

Apache Flume是一个分布式系统，用于高效收集、聚合和移动大量日志数据。taildir-source能实时监控文件并从末尾读取新增内容，即使文件旋转也不会丢失数据，且支持从上次停止的位置继续读取。在实际应用中，通过指定配置文件启动Flume agent，能够实现可靠的数据传输。taildir-source的优势在于断点续传和追加数据收集，但不支持二进制文件且需要文件读取权限。

一：Flume概述：

Apache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data store.

Apache Flume是一个分布式的、可靠的、可用的系统，用于有效地收集、聚合和将大量日志数据从许多不同的源转移到一个集中的数据存储区

The use of Apache Flume is not only restricted to log data aggregation. Since data sources are customizable, Flume can be used to transport massive quantities of event data including but not limited to network traffic data, social-media-generated data, email messages and pretty much any data source possible.

Apache Flume的使用不仅限于记录数据聚合。由于数据源是可定制的，所以可以使用Flume传输大量事件数据，包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。