Spark问题排查方式

Samooyou

已于 2023-07-07 17:24:01 修改

阅读量481

点赞数

分类专栏： Spark 文章标签： spark 大数据

于 2023-06-06 15:41:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Samooyou/article/details/131069319

版权

本文介绍了Spark任务中遇到的问题及解决方法，包括内存问题、网络超时、任务卡住或执行慢、类加载冲突等。对于内存问题，可以通过增加内存或调整shuffle分区解决；网络超时则可调整网络超时时间；任务卡住可能因过多的split或选择的join类型，可以通过优化配置和代码解决；类加载冲突可通过调整类加载顺序解决。此外，还提及了ESS关闭的时机和PySpark使用中应注意的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark问题排查思路

历史任务报错的常见原因
1. 集群变更。例如JAR包版本冲突，环境改动，部分task集中在变更的节点导致重试次数超限，变更时间过长超过任务容错时间等。前两者需要追查异常原因，后两者一般可通过重跑解决
2. 数据异常。例如数据倾斜、数据量激增、脏数据等
3. 资源紧张，包括队列资源紧张（结合Yarn队列资源监控），和节点资源紧张（节点CPU、io、内存等）。后者常见于Spark Shuffle异常和task启动异常
4. 集群bug，包括Spark和上下游组件等可能出现的bug，常表现为任务卡住，需结合task堆栈信息排查
新任务问题主要集中在用户的使用不当和环境匹配上，常见的包括
1. 没有显示调用stop()方法结束（SparkSession.stop() 或 SparkContext.stop()），导致任务挂起
2. 调用System.exit()方法退出，导致Spark无法执行正常的清退逻辑，状态异常
3. JAR包版本冲突。常见于用户同集群环境共同依赖的jar包版本不一致，如protobuf，commons等包。这种情况可以考虑通过参数优先加载用户jar包——spark.driver.userClassPathFirst=true,spark.executor.userClassPathFirst=true
4. 参数配置不合理。例如开发测试环境和生产环境的数据量不是一个级别，因此有些可以在开发测试环境使用的配置参数无法适用于生产环境
5. Spark版本不一致，例如用户使用了更高版本的特性（常见于AI团队）

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。