PySaprk 将 DataFrame 数据保存为 Hive 分区表

最新推荐文章于 2024-06-28 17:31:40 发布

原创

最新推荐文章于 2024-06-28 17:31:40 发布 · 7.4k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#PySpark #Hive

本文介绍了如何使用PySpark将DataFrame数据保存到Hive分区表，包括创建分区表、向已存在表插入数据，并讨论了不同插入模式及文件数量设置。重点关注df.write.saveAsTable()方法和动态分区的使用。

PySaprk 将 DataFrame 数据保存为 Hive 分区表

创建 SparkSession

from pyspark.sql import SparkSession

spark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()
sc = spark.sparkContext
hc = HiveContext(sc)

1. Spark创建分区表

# 可以将append改为overwrite，这样如果表已存在会删掉之前的表，新建表
df.write.saveAsTable(save_table, mode='append', partitionBy=['pt_day'])

saveAsTable 会自动创建hive表，partitionBy指定分区字段，默认存储为 parquet 文件格式。对于从文件生成的DataFrame，字段类型也是自动转换的，有时会转换成不符合要求的类型。

需要自定义字段类型的，可以在创建DataFrame时指定类型：

from pyspark.sql.types import StringType, StructType, BooleanType, StructField

schema = StructType([
    StructField("vin", StringType(), True),
    StructField("cust_id", StringType(), True),
    StructField("is_maintain", BooleanType(), True),
    StructField("is_wash", BooleanType(), True),
    StructField("pt_day", StringType(), True),
]
)