Spark(46) -- SparkStreaming整合kafka数据源

本文详细介绍了Spark Streaming整合Kafka的两种方式,重点讲解了使用Direct方式对接Kafka的原理与实践,包括创建DirectStream、Kafka 0.10版本的对接以及偏移量管理,强调了Direct方式的并行性、效率和Exactly-once语义,并给出了手动维护偏移量的MySQL存储示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 回顾 Kafka

可以看我前面kafka文章

核心概念图解在这里插入图片描述

  • Broker : 安装Kafka服务的机器就是一个broker
  • Producer :消息的生产者,负责将数据写入到broker中(push)
  • Consumer:消息的消费者,负责从kafka中拉取数据(pull),老版本的消费者需要依赖zk,新版本的不需要
  • Topic: 主题,相当于是数据的一个分类,不同topic存放不同业务的数据 --主题:区分业务
  • Replication:副本,数据保存多少份(保证数据不丢失) --副本:数据安全
  • Partition:分区,是一个物理的分区,一个分区就是一个文件,一个Topic可以有1~n个分区,每个分区都有自己的副本 --分区:并发读写
  • Consumer Group:消费者组,一个topic可以有多个消费者/组同时消费,多个消费者如果在一个消费者组中,那么他们不能重复消费数据 --消费者组:提高消
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

erainm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值