Spark机器学习自定义sql函数处理Vector类型

最新推荐文章于 2025-09-28 10:01:51 发布

原创最新推荐文章于 2025-09-28 10:01:51 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #机器学习 #Vector #sparksql #udf

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文介绍如何在Spark中使用UDF自定义函数处理复杂数据类型，通过实例展示如何提取向量特征并进行预测结果筛选，适用于大数据处理场景。

对于sparksql处理不了的类型，可以使用spark.udf.register自定义函数方法处理。

spark.udf.register("getPCA0", (s: Vector) => s(0))
spark.udf.register("getPCA1", (s: Vector) => s(1))
val sql = spark.sql("select getPCA0(pcaFeatures) as pca0,getPCA1(pcaFeatures) as pca1,prediction from predictions")
sql.show(10, false)

val model = PipelineModel.load(modelPath)
model.transform(df).createOrReplaceTempView("predictions")


spark.udf.register("getDga", (s: Vector) => s(1))
val sql = spark.sql("select domain_key as row_key,domain, getDga(probability) as probability from predictions where prediction == 1.0").cache()