首先创建一个spark环境下的dataframe
spark_df = spark.createDataFrame(filerdd.collect(),col)
期中第一个参数一般为一个2维列表或者数组,但是必须是rdd的动作结果。
第二个参数为列名,是一个列表或是rdd的动作的结果
然后直接转成python形式的dataframe就可以了,后面就可以进行熟悉的python环境的dataframe了
pda_df = spark_df.toPandas()
首先创建一个spark环境下的dataframe
spark_df = spark.createDataFrame(filerdd.collect(),col)
期中第一个参数一般为一个2维列表或者数组,但是必须是rdd的动作结果。
第二个参数为列名,是一个列表或是rdd的动作的结果
然后直接转成python形式的dataframe就可以了,后面就可以进行熟悉的python环境的dataframe了
pda_df = spark_df.toPandas()