pyspark之自定义函数操作（七）

自定义函数在PySpark中的应用

最新推荐文章于 2025-06-19 15:38:46 发布

hejp_123

最新推荐文章于 2025-06-19 15:38:46 发布

阅读量1.9k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： pyspark 自定义函数

本文链接：https://blog.youkuaiyun.com/hejp_123/article/details/88034035

spark 专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了如何在PySpark中定义和使用自定义函数(UDF)，包括基本的自定义函数流程、简单函数的创建及进阶函数的应用。涵盖了数据类型定义、函数注册及在DataFrame上的应用。

1. 概览
2. 自定义函数的一般流程
3. 简单的自定义函数
4. 自定义函数进阶

1. 概览

自定义函数的重点在于定义返回值类型的数据格式，其数据类型基本都是从from pyspark.sql.types import * 导入，常用的包括：
- StructType()：结构体
- StructField()：结构体中的元素
- LongType()：长整型
- StringType()：字符串
- IntegerType()：一般整型
- FloatType()：浮点型

还记得我们在前面的创建spark.dataframe提到的例子吗，dataframe的数据结构定义如下：

from pyspark.sql.types import StructType, StructField, LongType, StringType
schema = StructType([
    StructField("id", LongType(), True),
    StructField("name", StringType(), True),
    StructField("age", LongType(), True),
    StructField("eyeColor", StringType(), True)
])
 1
2
3
4
5
6
7

2. 自定义函数的一般流程

# 1.创建普通的python函数
def toDate(s):
    return str(s)+'-'

# 2.注册自定义函数
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

# 根据python的返回值类型定义好spark对应的数据类型
# python函数中返回的是string，对应的pyspark是StringType
toDateUDF=udf(toDate, StringType())  

# 使用自定义函数
df1.withColumn('color',toDateUDF('color')).show()
 1
2
3
4
5
6
7
8
9
10
11
12
13
14

3. 简单的自定义函数

最简单的就是通过lambda函数，不需要定义返回值类型，可以直接使用

# 创建udf自定义函数
from pyspark.sql import functions
concat_func = functions.udf(lambda name,age:name+'_'+str(age))  # 简单的连接两个字符串

# 应用自定义函数
concat_df = spark_df.withColumn("name_age",concat_func(final_data.name, final_data.age))
concat_df.show()
 1
2
3
4
5
6
7