spark streaming 错误集锦

本文详细探讨了在使用Spark Streaming处理实时数据时遇到的常见问题,包括NoOutputStreamsRegistered、KeeperException等异常,并提供了相应的解决方案。此外,文章还介绍了如何优化Spark Streaming程序性能,包括调整zookeeper配置、修改Linux文件限制、调整YARN内存设置等策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题1:No output streams registered, so nothing to execute

解决原因:没有触发DStream需要的aciton
解决方法:使用以下方法之一触发:

print()
foreachRDD()
saveAsObjectFiles()
saveAsTextFiles()
saveAsHadoopFiles()

问题2:程序运行一段时间后org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /hbase/hbaseid

这个问题的应用背景是使用streaming接受kafka数据,然后数据处理后存到hbase数据库。程序运行大概两天后就抛出这个异常。这是zookeeper的问题,通过查看zookeeper日志发现,是因为超过最大连接数,通过设置zookeeper的zoo.cfg文件即可解决问题:

# increase this if you need to handle more clients
#默认是60
maxClientCnxns=600

问题3:java.io.FileNotFoundException:(Too many open files)

linxu系统下每个用户同时打开文件的个数是有限制的:
查看

ulimit -n
1024 

系统为每个用户默认最大数为1024个,下面我们对这个数进行修改:

1.修改/etc/security/limits.conf
2.添加如下一行:
  * - nofile 10240

推出shell重新登陆,再次查看ulimit -n,如果进程已经再跑了,需要重启进程

问题4:executor被杀掉(YARN环境下):ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL 15: SIGTERM

之所以会被杀掉是因为container off heap内存超过了内存限制,所谓off head 就是非堆空间内存,一般为vm本身消耗,默认是executor内存的10%,适当调大以下两个参数:

spark.yarn.driver.memoryOverhead
spark.yarn.executor.memoryOverhead

参数解释:http://spark.apache.org/docs/latest/running-on-yarn.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值