Spark闭包与广播变量详解-优快云博客

本文链接：https://blog.youkuaiyun.com/M_PigWmy/article/details/83418517

Spark中常见问题

Spark中的闭包

闭包则是在driver端声明 excutor端引用 闭包一定经过序列化
在函数内部引用了外部一个变量
会发现以下问题：
![在这里插入图片描述](https://img-blog.csdnimg.cn/20181026172745500.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01fUGlnV215,size_27,color_FFFFFF,t_70)
意思就是没有经过序列化 强调闭包一定要经过序列化!!!

Spark的广播变量

1.在driver端声明，把数据广播到executor端，在executor端引用
2.广播后的数据，是只读的，不可以修改的
3.Rdd不支持广播，rdd不支持嵌套操作
4.广播之后的数据，保证了每个executor中所有task公用的一份数据
5.（具体了解请关注我！！！）

spark-Streaming连接kafka的两种方法 ，

receiver
直连

receiver和直连区别

Reciver方式接收固定时间的数据（放在内存中），但是为了保证数据不丢失还要将前面接收到的数据写入Hdfs (wals机制) 使用Kafka高级API 自动维护偏移量省事但是需要等到固定的时间才能处理效率低
直连方式相当于直接连到kafka的分区上使用 kafka的底层api 效率高但是需要手动维护偏移量
如果是直连先是从driver端读取偏移量如果没有就从头读如果有就从那开始读之后开始提交任务因为现在是executor之间连到kafka的分区一个分区对应一个task 这个task不会消失一直的处理
这样处理是边读边处理但是也是按多长时间算一个批次