1. 回顾 Kafka
核心概念图解
- Broker : 安装Kafka服务的机器就是一个broker
- Producer :消息的生产者,负责将数据写入到broker中(push)
- Consumer:消息的消费者,负责从kafka中拉取数据(pull),老版本的消费者需要依赖zk,新版本的不需要
- Topic: 主题,相当于是数据的一个分类,不同topic存放不同业务的数据 --主题:区分业务
- Replication:副本,数据保存多少份(保证数据不丢失) --副本:数据安全
- Partition:分区,是一个物理的分区,一个分区就是一个文件,一个Topic可以有1~n个分区,每个分区都有自己的副本 --分区:并发读写
- Consumer Group:消费者组,一个topic可以有多个消费者/组同时消费,多个消费者如果在一个消费者组中,那么他们不能重复消费数据 --消费者组:提高消费者消费速度、方便统一管理
注意:
- 一个Topic可以被多个消费者或者组订阅,一个消费者/组也可以订阅多个主题 <
本文详细介绍了Spark Streaming整合Kafka的两种方式,重点讲解了使用Direct方式对接Kafka的原理与实践,包括创建DirectStream、Kafka 0.10版本的对接以及偏移量管理,强调了Direct方式的并行性、效率和Exactly-once语义,并给出了手动维护偏移量的MySQL存储示例。
订阅专栏 解锁全文
754

被折叠的 条评论
为什么被折叠?



