1. Spark消费 Kafka,分布式的情况下,如何保证消息的顺序
Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。
同一个 Partition 用一个 write ahead log (WAL)组织,所以可以保证 FIFO 的顺序。
不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义,因为同一个 key 的 message 可以保证只发送到同一个 Partition。比如说 key 是 user id,table row id 等等,所以同一个 user 或者同一个 record 的消息永远只会发送到同一个 Partition上,保证了同一个 user 或 record 的顺序。
当然,如果你有 key skewness 就有些麻烦,需要特殊处理
实际情况中: (1)不关注顺序的业务大量存在;(2)队列无序不代表消息无序。
第(2)条的意思是说: 我们不保证队列的全局有序,但可以保证消息的局部有序。举个例子: 保证来自同1个 order id 的消息,是有序的!
Kafka 中发送1条消息的时候,可以指定(topic, partition, key) 3个参数。partiton 和 key 是可选的。如果你指定了 partition,那就是所有消息发往同1个 partition,就是有序的。并且在消费端,Kafka 保证,1个 partition 只能被1个 consumer 消费。或者你指定 key(比如 order id),具有同1个 key 的所有消息,会发往同1个 partition。也是有序的。
2. Spark 中的数据倾斜问题你有什么好的方案?
简单一句: Spark 数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义 Partitioner,使用 Map 侧 Join 代替 Reduce 侧 Join(内存表合并),给倾斜 Key 加上随机前缀等。
什么是数据倾斜 对 Spark/Hadoop 这样的大数据系统来