Spark面试题库

最新推荐文章于 2024-10-06 20:02:52 发布

原创

最新推荐文章于 2024-10-06 20:02:52 发布 · 1.3k 阅读

14 ·

CC 4.0 BY-SA版权

本文出 Jred 的优快云博客，转载请注明出处，谢谢！

文章标签：

#Spark面试

本文讨论了Spark消费Kafka时如何在分布式环境下保证消息顺序，主要依赖于Kafka的Partition机制和message key。对于数据倾斜问题，提出了调整并行度、自定义Partitioner、Map侧Join、Key随机前缀等解决方案，以优化Spark作业的性能。

1. Spark消费 Kafka，分布式的情况下，如何保证消息的顺序

Kafka 分布式的单位是 Partition。如何保证消息有序，需要分几个情况讨论。
同一个 Partition 用一个 write ahead log （WAL）组织，所以可以保证 FIFO 的顺序。
不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义，因为同一个 key 的 message 可以保证只发送到同一个 Partition。比如说 key 是 user id，table row id 等等，所以同一个 user 或者同一个 record 的消息永远只会发送到同一个 Partition上，保证了同一个 user 或 record 的顺序。
当然，如果你有 key skewness 就有些麻烦，需要特殊处理
实际情况中: （1）不关注顺序的业务大量存在；（2）队列无序不代表消息无序。
第（2）条的意思是说: 我们不保证队列的全局有序，但可以保证消息的局部有序。举个例子: 保证来自同1个 order id 的消息，是有序的！
Kafka 中发送1条消息的时候，可以指定(topic, partition, key) 3个参数。partiton 和 key 是可选的。如果你指定了 partition，那就是所有消息发往同1个 partition，就是有序的。并且在消费端，Kafka 保证，1个 partition 只能被1个 consumer 消费。或者你指定 key（比如 order id），具有同1个 key 的所有消息，会发往同1个 partition。也是有序的。

2. Spark 中的数据倾斜问题你有什么好的方案？

简单一句: Spark 数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义 Partitioner，使用 Map 侧 Join 代替 Reduce 侧 Join（内存表合并），给倾斜 Key 加上随机前缀等。
什么是数据倾斜对 Spark/Hadoop 这样的大数据系统来