生产环境-数据仓库组件之Flume

本文详细介绍了Flume在数据仓库组件中的角色,包括其架构、使用规范、配置示例以及如何保证数据不丢失、不重复。Flume用于收集日志数据并将其从各个服务器传输到大数据集群,通过Kafka进一步处理。文章强调了File channel在防止数据丢失中的重要性,并提供了针对Taildir source的数据完整性解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据仓库组件之Flume

一、前言

​ Flume是一个可以收集日志等数据资源,并将这些庞大的数据从各项数据源中集中起来存储的高可用,分布式的工具,其设计的原理也是基于数据流。

二、架构

1 架构示意图

在这里插入图片描述

2 架构说明:

  • 根据我们公司的业务架构,生产环境的服务器基本上是两台,所产生的日志数据分别存放在自己的本地路径下,并没有在大数据集群的服务器上,所以我们需要Flume子节点将日志数据传输到大数据集群。
  • 通过我们大数据集群上的Flume再下沉到Kafka集群
  • 在下沉到Kafka集群时,需要遵守Kafka topic的设计规范(详见Kafka使用手册),需要编写flume拦截器。

三、使用规范

1 conf 脚本文件命名规范

1)节点Flume --> 汇总Flume

《项目名》+《kafka+节点》+《kafka+Emr+节点》,中间通过下划线连接

节点:master、slave、slave1、slave2等

例如:DHP_flumeAppSlave_flumeEmrMaster.conf

解释:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值