AttributeError: ‘RDD‘ object has no attribute ‘toDF‘

最新推荐文章于 2023-01-09 16:18:07 发布

数据闲逛人

最新推荐文章于 2023-01-09 16:18:07 发布

阅读量1.2k

点赞数 2

分类专栏： # 【Hadoop & Spark】文章标签： toDF

本文链接：https://blog.youkuaiyun.com/jcjic/article/details/125327442

版权

本文详细介绍了如何在Pyspark中正确使用RDD转换为DataFrame，包括解决'Cannot run multiple SparkContexts at once'错误，并分享了一个3万字长的PySpark入门教程链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

rdd = sc.parallelize([("Sam", 28, 88), ("Flora", 28, 90), ("Run", 1, 60)])
df = rdd.toDF(["name", "age", "score"])
df.show()
sc.stop()

我想使用RDD来创建SparkDataFrame，但是报错了

解决方案：增加三行代码，如下

from pyspark.sql.session import SparkSession
sc=SparkContext()
SparkSession(sc)       #利用SparkSession来使sc具有处理PipelinedRDD的能力
rdd = sc.parallelize([("Sam", 28, 88), ("Flora", 28, 90), ("Run", 1, 60)])
df = rdd.toDF(["name", "age", "score"])
df.show()
sc.stop()

    如果报了下面的错误，使用sc.stop()运行一下下就可以了
ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=test_SamShare, master=local[4]) created by