大数据集群问题,spark打包集群运行时遇到的BUG。

本文总结了在集群部署Spark程序时常见的两大问题:jar冲突与集群环境配置错误,并提供了解决方案。针对jar冲突,需统一依赖版本;对于环境配置错误,需正确设置SPARK_DIST_CLASSPATH。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在集群部署spark程序时,有两个BUG经常遇到。一个是jar冲突问题,一个是集群环境问题。两个BUG经常遇到,在这里记录一下。以后遇到类似的问题,能快速定位解决。

一,spark JAR包集群运行报org.apache.hadoop.fs.FSDataInputStream错误。

遇到这个错误,一般需要在根目录etc/spark/路径下的spark-env.sh文件中添加:
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
把hadoop classpath的路径加入到spark-env.sh中。如果运行继续报错,然后看看SPARK_HOME路径是否配置!如果没有配置则加上SPARK_HOME路径。

二,kafka sparkstreaming整合后集群报错org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/util/List)错误。

这个错误,一般是由于spark程序依赖的jar包和集群本身的jar不一致所引起的。需要把集群的jar更新成与程序代码所依赖的jar一致就行。

需要找到集群安装spark的目录,找到…/SPARK2/lib/spark2/jars路径,把此路径下的jar更新成和程序所依赖jar包一直即可解决问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值