spark2.4.0 ml StringIndexer报错

最新推荐文章于 2025-01-02 09:32:55 发布

原创

最新推荐文章于 2025-01-02 09:32:55 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark2.4.0 ml StringIndexer

在使用Spark 2.4.0进行电影推荐系统的特征工程中，遇到StringIndexer转换用户性别时出现错误。问题源于在尝试将字符串类型转换为数值类型并保存为parquet文件时，遇到了NULL值。经过排查发现，尽管数据文件中未发现空值，但DataFrame中存在NULL。通过过滤DataFrame发现是zipCode字段解析出错，原因是该字段有0开头的数字，导致LongType解析失败。解决方案是将zipCode的schema类型更改为StringType。

事情是这样的

本人目前在用MovieLens_1M做电影推荐

出错的时候，是对用户数据做特征工程

首先对用户gender做StringIndexer，简单来说，就是把字符串类型的值转成数值类型的值，方便后续再调API做one-hot encoding，因为spark的OneHotEncoderEstimator要求必须是数值，String类型不支持呀。。。

但是，用StringIndexer转完后，我试着开始写文件（写成parquet哈），结果给我报了一长串的错。。。

核心部分如下：
Caused by: org.apache.spark.SparkException: Failed to execute user defined function($anonfun$9: (string) => double)
at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$13$$anon$1.hasNext(WholeStageCodegenExec.scala:636)
at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:244)
at org.apach