spark streaming 踩过的那些坑

最新推荐文章于 2025-11-06 15:15:29 发布

原创

最新推荐文章于 2025-11-06 15:15:29 发布 · 2.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

系统背景

spark streaming + Kafka高级API receiver

目前资源分配（现在系统比较稳定的资源分配），独立集群

--driver-memory 50G
   --executor-memory 8G
   --num-executors 11
   --executor-cores 5

广播变量

1. 广播变量的初始化

   1.1.executor端，存放广播变量的对象使用非静态，因为静态变量是属于类的，不能使用构造函数来初始化。在executor端使用静态的时候，它只是定义的时候的一个状态，而在初始化时设置的值取不到。而使用非静态的对象，其构造函数的初始化在driver端执行，故在集群可以取到广播变量的值。

2. 广播变量的释放

   2.1.当filter增量为指定大小时，进行广播，虽然广播的是同一个对象，但是，广播的ID是不一样的，而且ID号越来越大，这说明对于广播来说，它并不是一个对象，而只是名字一样的不同对象，如果不对广播变量进行释放，将会导致executor端内存占用越来越大，而一直没有使用的广播变量，被进行GC，会导致GC开销超过使用上线，导致程序失败。
   2.2.解决方案：这广播之前，先调用unpersist()方法，释放不用的广播变量

使用Kafka 的高级API receiver

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。