SparkSQL UDF 返回类型不能包含NUMPY类型

本文探讨了SparkSQL中用户自定义函数(UDF)在处理包含Numpy类型数据时遇到的PickleException错误。通过实例演示了错误产生的原因及解决方案,强调了在Spark2.1.1版本中,UDF不支持直接使用Numpy类型,并提供了代码修正方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

版权声明:本文为博主原创文章,未经博主允许不得转载。

Spark版本: 2.1.1

问题:SparkSQL UDF 返回类型包含NUMPY类型,报错:

PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype)

如下方代码所示,定义的udf返回类型为包含dict的list,在udf中新增排序列并赋默认值,如此写会报上述错误。

import pandas as pd
from pyspark.sql import functions as F
from pyspark.sql.types import MapType, StringType, ArrayType


def calc_allocate(collect_list):
    df_assign = pd.DataFrame(collect_list)
    # 新增排序列并赋默认值
    df_assign["rank"] = range(1, df_assign.shape[0] + 1)
    return_allocate = []

    for i in range(1, df_assign.shape[0] + 1):
        allocate_dict = dict()
        allocate_dict["id"] = df_assign.loc[df_assign["rank"] == i, "id"].values[0]
        allocate_dict["rank"] = df_assign.loc[df_assign["rank"] == i, "rank"].values[0]
        return_allocate.append(allocate_dict)

    return return_allocate


if __name__ == '__main__':
    collect_list = [
        {u'id': u'1'},
        {u'id': u'2'},
        {u'id': u'3'},
        {u'id': u'4'},
        {u'id': u'5'}
    ]
    data_allocate_compute = calc_allocate(collect_list)
    # 定义udf
    udf_calc_allocate = F.udf(collect_list, returnType=ArrayType(MapType(StringType(), StringType())))

参见Spark2.1.1的官方文档,可知SparkSQL不能使用引用的类型,如numpy中的数据类型。

Python DataTypes No Longer Singletons

When using DataTypes in Python you will need to construct them (i.e. StringType()) instead of referencing a singleton.

——摘自http://spark.apache.org/docs/2.1.1/sql-programming-guide.html#python-datatypes-no-longer-singletons

查看字段类型可知,在新增排序列“rank”时,类型为 numpy.int64 ,所以会保报错。

print type(df_assign.loc[df_assign["rank"] == i, "rank"].values[0])
<type 'numpy.int64'>

解决方式:在赋值时强制转换python基础类型。

allocate_dict["rank"] = int(df_assign.loc[df_assign["rank"] == i, "rank"].values[0])

而在高版本中会支持numpy返回新型,如2.4.3的文档。

http://spark.apache.org/docs/latest/sql-pyspark-pandas-with-arrow.html#pandas-udfs-aka-vectorized-udfs


--------------------------文档信息--------------------------
版权声明:本文为博主原创文章,未经博主允许不得转载
署名(BY) :dkjkls(dkj卡洛斯)
文章出处:http://blog.youkuaiyun.com/dkjkls

### UDF 函数类型概述 在处理大规模数据集时,用户自定义函数(User Defined Functions, UDFs)提供了强大的灵活性。这些函数允许开发者扩展SQL的功能来满足特定需求。对于不同的平台如Hive、Spark SQL以及Hive on SparkUDF的实现方式有所不同。 #### Hive中的UDF分类 1. **标准UDF** - 这是最常见的形式,在Java中通过继承`org.apache.hadoop.hive.ql.exec.UDF`类并重写evaluate方法来创建[^3]。 2. **GenericUDF** - 提供更广泛的输入参数支持,适用于复杂的数据结构操作。它实现了`GenericUDF`接口而不是简单的继承`UDF`类。 3. **UDAF (User Defined Aggregation Function)** - 用于聚合运算,比如求平均数、总和等。这类函数需要实现`GenericUDAFEvaluator`接口。 4. **UDTF (User Defined Table Generating Function)** - 可以将一行记录转换成多行输出,常用来解析JSON字符串或其他复合型字段。 ```sql -- 创建一个简单的Hive UDF例子 CREATE FUNCTION my_upper AS 'com.example.MyUpperFunction'; SELECT my_upper(column_name) FROM table; ``` #### Spark SQL 中的 UDF 类型 - 对于Spark SQL而言,除了可以兼容Hive风格的传统UDFs外,还可以利用Scala或Python编写更加简洁高效的版本[^1]。 - 使用 `spark.udf.register()` 方法可以直接注册新的UDF而无需提前编译JAR文件[^2]: ```scala // Scala版UDF示例 val addSuffix = udf((str: String, suffix: String) => str + "-" + suffix) spark.sql("SELECT id, add_suffix(name,'class') FROM positions.test") ``` ```python # Python 版本 from pyspark.sql.functions import udf add_suffix_py = udf(lambda s, suf: f"{s}-{suf}") spark_df.select(add_suffix_py(col("name"), lit("class")).alias('new_col')).show() ``` #### Hive on Spark 下的 UDF 支持 当采用Hive on Spark模式执行查询时,所有的Hive UDF都能正常工作,并且性能通常会有所提升因为底层采用了优化后的引擎。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值