Kafka作为 flume source，hdfs作为 sink 如何书写配置文件

最新推荐文章于 2024-08-07 11:13:35 发布

原创最新推荐文章于 2024-08-07 11:13:35 发布 · 701 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #flume #大数据

本文详细介绍了如何使用Apache Flume进行数据采集、传输及存储的配置过程。具体包括Kafka Source配置、File Channel配置以及HDFS Sink配置等关键环节。

#定义组件

a1.sources=r1

a1.channels=c1

a1.sinks=k1

#配置source1

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource

a1.sources.r1.batchSize = 5000

a1.sources.r1.batchDurationMillis = 2000

a1.sources.r1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092

a1.sources.r1.kafka.topics=自定义主题

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = 可以自定义拦截器

#配置channel

a1.channels.c1.type = file

a1.channels.c1.checkpointDir = /opt/module/flume/checkpoint/behavior1

a1.channels.c1.dataDirs = /opt/module/flume/data/behavior1

a1.channels.c1.maxFileSize = 2146435071

a1.channels.c1.capacity = 1000000

a1.channels.c1.keep-alive = 6

#配置sink

a1.sinks.k1.type = hdfs

a1.sinks.k1.hdfs.path = 自定义

a1.sinks.k1.hdfs.filePrefix = log

a1.sinks.k1.hdfs.round = false

a1.sinks.k1.hdfs.rollInterval = 10

a1.sinks.k1.hdfs.rollSize = 134217728

a1.sinks.k1.hdfs.rollCount = 0

#控制输出文件类型

a1.sinks.k1.hdfs.fileType = CompressedStream

a1.sinks.k1.hdfs.codeC = gzip

#组装

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xinzhan_L

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

flume系列之：flume消费kafka数据到HDFS生产参数配置

zhengzaifeidelushang的博客

01-05

1489

flume系列之：flume生产参数配置 # source, channel and sink statement flume_prod.sources = source1 flume_prod.channels = channel1 flume_prod.sinks = sink1 # link source to sink via channel flume_prod.sources.source1.channels = channel1 flume_prod.sinks.sink1.channel

flume连接hdfs和kafka

weixin_37761111的博客

06-21

916

flume连接hdfs和kafka练习一、flume连接hdfs情况选型是source端使用taildir channel端使用file channel sink端使用hdfs 脚本文件如图：运行flume-ng，如下：往flume 监控的文件taildir_test.data写入数据：等待控制台的输出命令：登录HDFS查看，发现已经写入：肯定有人要问了：memory ch...

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2022.10.08
一些小的改进建议：(1)使用标准目录；(2)使用更多的站内链接；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。

Flume中的HDFS Sink配置参数说明

BlueSky

03-30

1万+

关键字：flume、hdfs、sink、配置参数转自：http://lxw1234.com/archives/2015/10/527.htm Flume中的HDFS Sink应该是非常常用的，其中的配置参数也比较多，在这里记录备忘一下。 channeltype hdfs path 写入hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/

Flume配置文件kafkaSource

08-07

Flume配置文件kafkaSource 包含Intercepter,包含正则表达式。

Flume实战篇-采集Kafka到hdfs

S1124654的博客

03-06

3215

Flume实战篇-采集Kafka到hdfs

【Flume】Flume中的HDFS Sink配置项详解

Together

05-23

927

Flume中的HDFS Sink应该是非常常用的，其中的配置参数也比较多，在这里记录备忘一下: type hdfs path 写入hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/flume/webdata/ 可以使用flume提供的日期及%{host}表达式。 filePrefix 默认值：FlumeData 写入hdfs的文件名前缀，可以使用flume提供的日期及%{host}表达式。 fileSuffix 写入hdfs的文件名后缀，比如：

flume之kafka source

热门推荐

赶路人儿

10-17

1万+

对于线上业务系统来说，有的时候需要对大量的数据进行统计，如果直接将数据保存到本地文件（例如使用log4j）可能会拖慢线上系统。那么，最好的方式是将大量的数据通过jms（例如：kafka）发送到消息服务器，消息中间件后面再对接flume来完成数据统计等需求。接下来，我们来介绍一下flume 的kafka source。一、理论： #-------- kafkaSour...

二百三十三、Flume——Flume采集JSON文件到Kafka，再用Flume采集Kafka数据到HDFS中

tiantang2renjian的博客

04-19

1734

Flume采集JSON文件到Kafka，再用Flume采集Kafka数据到HDFS中

Flume(十三)HDFS Sink

技术博客

08-07

424

它还通过类似时间戳或机器属性对数据进行 buckets/partitions 操作 HDFS的目录路径可以包含将要由HDFS替换格式的转移序列用以生成存储事件的目录/文件名。同样，HDFS Sink在写数据的时候，数据对应的存储文件会定时地滚动。如果不指定，那么默认是每隔30s滚动一次，生成一个小文件，所以此时会生成大量的小文件，因此在实际过程中一般需要调节这个属性。如果安全模式为关闭，只需要删除flume的lib下面的guava包，然后拷贝kafka下面的guava包给flume即可。

Flume采集数据到Kafka,然后从kafka取数据存储到HDFS的方法思路和完整步骤

03-08

- **解决方案**：仔细检查Flume配置文件，确保数据源、Channel和Sink配置无误。 **5.2 权限问题** - **原因**：在HDFS上存储数据时可能会遇到权限问题。 - **解决方案**：使用`hadoop fs -chmod`命令更改HDFS文件...

Flume使用大全之kafka source-kafka channel-hdfs

xiaoji88326518的专栏

08-07

2517

agent.sources = kafkaSource1 agent.channels = kafkaChannel agent.sinks = hdfsSink agent.sources.kafkaSource1.channels = kafkaChannel agent.sinks.hdfsSink.channel = kafkaChannel agent.sour

Flume HDFS Sink常用配置深度解读

weixin_42102379的博客

12-13

473

一、hdfs sink滚动生成文件的策略一般使用hdfs sink都会采用滚动生成文件的方式，hdfs sink滚动生成文件的策略有：基于时间基于文件大小基于hdfs文件副本数（一般要规避这种情况）基于event数量基于文件闲置时间下面将详细讲解这些策略的配置以及原理 1. 基于时间策略 配置项：hdfs.rollInterval 默认值：30秒说明：如果设置为0表示禁用这个策...

Flink Kafka-Source

南风知我意

05-15

3655

Flink Kafka-Source

Flume NG之Agent部署和sink配置HDFS且吐槽优快云博客及客服态度

医疗影像检索

03-08

3195

实在是想对csdn博客吐槽，一天到晚要么发布不了，发布成功的居然还时不时看不到文章内容（空白的），有时还打不开博客，问客服就说换浏览器。我真想和csdn客服说，你妹的，你知不知道我是码农啊，初步的问题诊断是会的，如果不是怀疑csdn博客服务端问题，我会找你。这篇文章是重复http://blog.youkuaiyun.com/fjssharpsword/article/details/60136224，因为

业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)

狗不理的博客

10-02

3929

零点漂移

（file-flume-kafka-flume-hdfs过程中）flume 配置文件的编写

Huc673619的博客

10-17

694

flume 配置文件的编写 flume 配置文件 file-flume-kafka.conf 使用 TAILDIR source 1 # Name the components on this agent 2 a1.sources = r1 3 a1.channels = c1 4 5 # Describe/configure the source 6 a1.sources.r1.type = TAILDIR 7 a1.sources.r1.filegroups = f1

cdh5.16.2配置flume读取kafka文件到hdfs

那年花下月如雪

05-10

463

环境 kafka_2.13-2.4.1 cdh5.16.2 flume配置按需选择 ```java #comonents a1.sources = r1 a1.sinks = k1 a1.channels = c1 #source #a1.sources.r1.type = netcat #a1.sources.r1.bind = 127.0.0.1 #a1.sources.r1.port = 8888 a1.sources.r1.type = org.apache.flume.sourc

使用EMR-Flume同步Kafka数据到HDFS

weixin_34277853的博客

04-10

373

使用EMR-Flume同步Kafka数据到HDFS 1. 背景 Flume是一个分布式、可靠和高效的数据汇聚系统，其source、channel和sink的结构设计，不仅实现了数据生产者与消费者的解耦，还提供了数据缓冲的功能。Flume支持多种source、channel和sink，也可以实现自定义source、channel和sink并以插件的方式加...

数据采集实验：Kafka+hdfs+flume

retharu_i7的博客

11-17

964

在windows环境下，做flume实验过程中，第一个用Flume实时捕捉MySQL数据库中的记录更新实验中基本比较简单，但是还是要注意conf文件，在配置中需要注意apache-flume-1.9.0的位置。有大佬说是因为jar包冲突的原因，去查guava包，在flume的lib的版本是11.0.9，在hadoop的lib下是28.0。是因为缺少flume-ng-sql-source jar包导致的，找到相应的包，解决办法是把高版本的guava复制到低版本的lib中，同时删掉低版本guava。

所以是flume kafka flume hdfs对吗

最新发布

06-07

### Flume -> Kafka -> Flume -> HDFS 数据流架构确认数据流架构为 Flume -> Kafka -> Flume -> HDFS 是可行的，并且在实际生产环境中被广泛采用。以下是对此架构的专业分析和详细说明： #### 1. **Flume 到 Kafka** Flume 负责从各种数据源（如日志文件、网络流量等）中采集数据，并将其发送到 Kafka。这种设计的好处在于 Flume 的灵活性和可靠性，能够处理不同来源的数据并将其统一写入 Kafka[^1]。配置示例： ```properties # 定义 agent 的名称 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 配置 source，从本地文件或网络流中读取数据 a1.sources.r1.type = exec a1.sources.r1.command = tail -F /var/log/myapp.log # 配置 sink，将数据写入 Kafka a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink a1.sinks.k1.topic = test_topic a1.sinks.k1.brokerList = localhost:9092 # 配置 channel，使用内存通道 a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 ``` #### 2. **Kafka 作为消息队列** Kafka 在此架构中充当消息队列的角色，负责存储和分发数据。Flume 将数据写入 Kafka 后，Kafka 可以确保数据的高可靠性和高吞吐量，同时支持多个消费者组进行数据消费[^3]。 #### 3. **Kafka 到 Flume** 另一个 Flume 实例可以从 Kafka 中消费数据。通过 Kafka Source 插件，Flume 能够高效地读取 Kafka 中的消息并进行后续处理。这种设计允许对数据进行进一步的过滤、转换或聚合操作。配置示例： ```properties # 定义 agent 的名称 a2.sources = r1 a2.sinks = k1 a2.channels = c1 # 配置 source，从 Kafka 中读取数据 a2.sources.r1.type = org.apache.flume.source.kafka.KafkaSource a2.sources.r1.zookeeperConnect = localhost:2181 a2.sources.r1.topic = test_topic a2.sources.r1.groupId = flume-consumer-group # 配置 channel，使用文件通道 a2.channels.c1.type = file a2.channels.c1.capacity = 10000 a2.channels.c1.transactionCapacity = 1000 # 配置 sink，将数据写入 HDFS a2.sinks.k1.type = hdfs a2.sinks.k1.hdfs.path = hdfs://namenode:8020/user/flume/logs/%Y%m%d a2.sinks.k1.hdfs.fileType = DataStream a2.sinks.k1.hdfs.rollInterval = 600 a2.sinks.k1.hdfs.rollSize = 134217728 a2.sinks.k1.hdfs.rollCount = 0 ``` #### 4. **Flume 到 HDFS** 最终，Flume 将数据写入 HDFS。为了优化性能和避免小文件问题，可以通过调整 `rollInterval`、`rollSize` 和 `rollCount` 等参数来控制文件滚动策略[^4]。 --- ### 注意事项 - 在停止 Flume 服务时，由于使用了 File Channel 并且 Flume 消费 Kafka 数据到 HDFS，因此不会出现数据丢失的问题，但可能会有重复信息的问题[^4]。 - 如果需要重新消费 Kafka 中的数据，可以通过删除对应的消费者组和 Flume 的 checkpoint 文件实现[^4]。 --- ###

Kafka作为 flume source，hdfs作为 sink 如何书写 配置文件

1 条评论

Kafka作为 flume source，hdfs作为 sink 如何书写配置文件