rdd不能嵌套rdd

Spark：理解RDD的非嵌套原则

最新推荐文章于 2022-06-23 15:19:19 发布

原创最新推荐文章于 2022-06-23 15:19:19 发布 · 4.6k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #rdd #py4j.Py4JException #Py4JError

Spark 专栏收录该内容

3 篇文章

订阅专栏

本文探讨了在Spark中，RDD（弹性分布式数据集）不允许嵌套的问题。出现`py4j.Py4JException`或`Py4JError`通常是由于尝试在RDD操作内部使用另一个RDD导致的。这种做法违反了RDD的设计原则，应当避免。

df_all.show()
a = [(1,df_all)]
rdd = sc.parallelize(a)

报错

Py4JError: An error occurred while calling o131.__getnewargs__. Trace:
py4j.Py4JException: Method __getnewargs__([]) does not exist
at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:335)
at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:344)
at py4j.Gateway.invoke(Gateway.java:252)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:209)
at java.lang.Thread.run(Thread.java:745)