from pyspark.sql import SparkSession
创建SparkSession
spark = SparkSession.builder.appName(“example”).getOrCreate()
读取表
example_table = spark.read.table(“example_table”)
选择要返回的列
column_name = “column_name”
data = example_table.select(column_name).collect()
将收集到的数据转换为列表
data_list = [row[column_name] for row in data]
print(data_list)
关闭SparkSession
spark.stop()
该文章演示了如何使用PySpark进行数据操作。首先通过SparkSession创建会话,然后读取名为example_table的表,选择特定列column_name,收集数据并将其转换为Python列表,最后关闭SparkSession。
3562

被折叠的 条评论
为什么被折叠?



