spark读取kafka数据（两种方式比较及flume配置文件）

最新推荐文章于 2025-05-28 15:15:59 发布

原创

最新推荐文章于 2025-05-28 15:15:59 发布 · 5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#sparkStreaming #kafka #flume配置文件 #Recevier与Director

本文探讨了SparkStreaming从Kafka获取数据的两种方式——Receiver和Direct。Receiver方式依赖Zookeeper，数据存储在Executor内存中，可能导致数据丢失。而Direct方式直接读取Kafka Broker，与Kafka Partition一一对应，提高并行度，并利用Kafka的高可用性。为了防止数据丢失，Direct方式需要设置checkpoint。示例代码展示了Java版的SparkStreaming配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Kafka topic及partition设计

1、对于银行应用日志，一个系统建一个topic，每台主机对应一个partition，规则为，flume采集时，同一个应用，数据送到同一个topic，一个主机，送一个partition，这样做是为了同一个日志的数据在一个partition中，顺序不会乱。另，flume配置文件可以配置sink的topic和partition id（xxx.kafka.topic = xxx ;dafaultPartitionId = x）。