pyspark dataframe 保存成 cvs-优快云博客

Python,CV相关视频讲解：

使用PySpark将DataFrame保存为CSV文件

在数据处理和分析中，PySpark是一个强大的工具，它可以用来处理大规模的数据集。当我们处理数据后，通常需要将处理好的结果保存到文件中，这篇文章将介绍如何使用PySpark将DataFrame保存为CSV文件。

创建DataFrame

首先，我们需要创建一个DataFrame对象。我们可以使用createDataFrame方法来创建一个DataFrame，也可以从其他数据源（如CSV文件、数据库等）读取数据并转换为DataFrame。

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.appName('example').getOrCreate()

# 创建数据
data = [("Alice", 34), ("Bob", 45), ("Cathy", 28)]
columns = ["name", "age"]

# 创建DataFrame
df = spark.createDataFrame(data, columns)
df.show()

保存DataFrame为CSV文件

一旦我们有了DataFrame对象，就可以使用write方法将其保存为CSV文件。我们可以指定保存路径和保存格式（如CSV、Parquet等）。

在上面的代码中，我们将DataFrame保存为名为output.csv的CSV文件，并指定了header=True以保留列名。

完整代码示例

下面是完整的代码示例，包括创建DataFrame和保存为CSV文件的过程：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.appName('example').getOrCreate()

# 创建数据
data = [("Alice", 34), ("Bob", 45), ("Cathy", 28)]
columns = ["name", "age"]

# 创建DataFrame
df = spark.createDataFrame(data, columns)
df.show()

# 保存DataFrame为CSV文件
df.write.csv("output.csv", header=True)

关系图

下面是DataFrame对象df的关系图：

总结

通过本文的介绍，我们学习了如何使用PySpark将DataFrame保存为CSV文件。首先，我们创建了一个DataFrame对象，然后使用write.csv方法将其保存为CSV文件。这种方法可以帮助我们将处理好的数据保存到文件中，以供后续分析和使用。

希望本文对你有所帮助，谢谢阅读！

原创作者: u_16175511 转载于: https://blog.51cto.com/u_16175511/11343905