看到什么函数就记录了,没有什么逻辑关系
spark 中DataFrame 和 pandas的DataFrame的区别
1. F.split() 和 df.withColumn()
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.types import *
df = spark.sql(sql)
split_col = F.split(df_order['xxxx'], '\|') # 对列切分
df_order = df_order.withColumn('llat', split_col.getItem(0).cast('float')) #withColumn 新增一列,第二个参数传入已有列的Column对象,否则会报错
2. F.collect_list() 和 df.groupby()
F.collect_list() 聚合函数,返回一个list
Spark SQL/DataFrame/DataSet操作(三)-----分组聚合groupBy_微步229的博客-优快云博客
df_group = df_order.groupby(['user_id', 'loc_h3_id']).agg(
F.collect_list("loaded_latlon").alias("loaded_latlon"),
F.collect_list("order_datetime").alias("tim

本文介绍了 Spark SQL 中 DataFrame 的常用操作技巧,包括列的切分、分组聚合、UDF 函数定义及应用等,帮助读者更好地掌握 Spark 数据处理方法。
最低0.47元/天 解锁文章
8110

被折叠的 条评论
为什么被折叠?



