Statictis

最新推荐文章于 2024-01-15 14:00:16 发布

Liu_Kuny

最新推荐文章于 2024-01-15 14:00:16 发布

阅读量497

点赞数

CC 4.0 BY-SA版权

分类专栏： mllib

本文链接：https://blog.youkuaiyun.com/mrpiont/article/details/80348343

mllib 专栏收录该内容

2 篇文章

订阅专栏

本文探讨了Py4JJavaError异常的具体原因及其解决方案，该异常发生在将Python代码部署到Spark集群时，而在本地环境中运行正常。文章深入分析了pyspark版本不一致可能导致的问题，并提供了相应的解决思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

py4j.protocol.Py4JJavaError: An error occurred while calling o39.colStats.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost, executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/opt/modules/spark-2.2.0/python/lib/pyspark.zip/pyspark/worker.py", line 166, in main
func, profiler, deserializer, serializer = read_command(pickleSer, infile)
File "/opt/modules/spark-2.2.0/python/lib/pyspark.zip/pyspark/worker.py", line 55, in read_command
command = serializer._read_with_length(file)
File "/opt/modules/spark-2.2.0/python/lib/pyspark.zip/pyspark/serializers.py", line 169, in _read_with_length
return self.loads(obj)
File "/opt/modules/spark-2.2.0/python/lib/pyspark.zip/pyspark/serializers.py", line 451, in loads
return pickle.loads(obj, encoding=encoding)
File "/opt/modules/spark-2.2.0/python/lib/pyspark.zip/pyspark/cloudpickle.py", line 784, in _make_skel_func
closure = _reconstruct_closure(closures) if closures else None
File "/opt/modules/spark-2.2.0/python/lib/pyspark.zip/pyspark/cloudpickle.py", line 776, in _reconstruct_closure
return tuple([_make_cell(v) for v in values])

TypeError: 'int' object is not iterable

--------------------------------------------

问题描述：

本地用终端连接pyspark shell窗口下能正常运行代码，写成spark应用程序集群运行导致上述报错；

解决：

可能是安装pyspark包时，默认安装了最新的版本，而pyspark终端启动默认使用的是pyspark里面的，而应用程序则是