spark.DataFrane分布式转pandas.dataframe

Spark到Pandas DataFrame转换

最新推荐文章于 2025-03-08 07:00:00 发布

原创最新推荐文章于 2025-03-08 07:00:00 发布 · 947 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#pyspark

pyspark 专栏收录该内容

7 篇文章

订阅专栏

import pandas as pd
def _map_to_pandas(rdds):
    return [pd.DataFrame(list(rdds))]
    
def topas(df, n_partitions=None):
    if n_partitions is not None: df = df.repartition(n_partitions)
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    df_pand = pd.concat(df_pand)
    df_pand.columns = df.columns
    return df_pand
    
pandas_df = topas(spark_df)

如果你已经来到这里，不妨关注如下公众号一起探索这个奇妙世界：