自定义函数
1. 概览
自定义函数的重点在于定义返回值类型的数据格式,其数据类型基本都是从from pyspark.sql.types import *
导入,常用的包括:
- StructType():结构体
- StructField():结构体中的元素
- LongType():长整型
- StringType():字符串
- IntegerType():一般整型
- FloatType():浮点型
还记得我们在前面的创建spark.dataframe
提到的例子吗,dataframe的数据结构定义如下:
from pyspark.sql.types import StructType, StructField, LongType, StringType
schema = StructType([
StructField("id", LongType(), True),
StructField("name", StringType(),