学习目标:
P43-52
学习内容:
流处理数据Sink到目的地的N种错误操作剖析
如何保证流处理数据的丢失
kafka:连接spark streaming,多分区、多副本。
spark常见的面试题:
Spark on Yarn两种方式的区别以及工作流程
Spark的内存管理
Spark作业资源的设置情况:executor个数 memory core driver
Shuffle机制:shuffle、依赖
DataFrame/DataSet/RDD的区别以及编程
数据倾斜
RDD
Spark作业执行流程:count后续干什么?
Spark中的隐式转换的作用:结合scala学习
Spark 和 MR的区别
Spark规模
Spark OOM如何解决问题
ThriftServer如何实现HA
Kafka整合Spark offset的管理
Spark、Storm、Flink的区别
数据倾斜: 数据倾斜产生的原因以及现象 MR中的Shuffle Spark中的Shuffle 数据倾斜的场景
什么是数据倾斜:造成数据大量集中在某个点上,造成数据热点问题
shuffle: join/mapjoin 条件 group by 条件
都会按照一定的key对数据进行分发。key分发不均匀——打散则可以破坏均匀
explain join:expression
遇到数据倾斜的场景应该要具备自适应的能力。以下图片为视频截图:
Spark Shuffle: hash sort 钨丝
shuffle会分stage: