PySpark sql 中一些函数的总结（持续更新）

原创

已于 2023-01-29 17:36:29 修改 · 1.5k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #hive

于 2023-01-29 17:27:07 首次发布

本文介绍了 Spark SQL 中 DataFrame 的常用操作技巧，包括列的切分、分组聚合、UDF 函数定义及应用等，帮助读者更好地掌握 Spark 数据处理方法。

看到什么函数就记录了，没有什么逻辑关系

spark 中DataFrame 和 pandas的DataFrame的区别

1. F.split() 和 df.withColumn()

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.types import *


df = spark.sql(sql) 

split_col = F.split(df_order['xxxx'], '\|')  # 对列切分
df_order = df_order.withColumn('llat', split_col.getItem(0).cast('float')) #withColumn 新增一列，第二个参数传入已有列的Column对象，否则会报错

2. F.collect_list() 和 df.groupby()

F.collect_list() 聚合函数，返回一个list

Spark SQL/DataFrame/DataSet操作（三）-----分组聚合groupBy_微步229的博客-优快云博客

df_group = df_order.groupby(['user_id', 'loc_h3_id']).agg(
        F.collect_list("loaded_latlon").alias("loaded_latlon"),
        F.collect_list("order_datetime").alias("tim