Spark textFile在读取数据遭遇empty string或者ArrayIndexOutOfBoundsException: 2

SparkTextFile异常处理

最新推荐文章于 2025-02-19 23:28:30 发布

原创最新推荐文章于 2025-02-19 23:28:30 发布 · 1.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #sparkMLlib #textFile

大数据同时被 3 个专栏收录

16 篇文章

订阅专栏

spark

11 篇文章

订阅专栏

Scala

8 篇文章

订阅专栏

本文详细解析了在使用SparkTextFile读取大数据文本时遇到的emptystring和ArrayIndexOutOfBoundsException异常，通过实例展示了如何通过filter筛选有效数据，排除含有空值的行，确保数据处理过程的顺利进行。

Spark textFile在读取数据遭遇empty string或者ArrayIndexOutOfBoundsException: 2

- - - 在使用spark textFile读取一个大数据文本有3万多行，然而在处理过程中即使用collect().foreach(println)进行打印输出，爆出empty string错误，经过排查，发现并不是存在空行，而是某一行数据存在空值，由于在处理过程中，将每一行中的数字抽取出来，转换成Double类型存入Vectors.dense稠密矩阵中，如果是某一行存在空值，则会爆出下标越界的错误，按此思路处理，果不其然：

在使用spark textFile读取一个大数据文本有3万多行，然而在处理过程中即使用collect().foreach(println)进行打印输出，爆出empty string错误，经过排查，发现并不是存在空行，而是某一行数据存在空值，由于在处理过程中，将每一行中的数字抽取出来，转换成Double类型存入Vectors.dense稠密矩阵中，如果是某一行存在空值，则会爆出下标越界的错误，按此思路处理，果不其然：

Caused by: java.lang.ArrayIndexOutOfBoundsException: 2

解决办法：
在处理过程中 filter筛选我们需要的数据
我的处理办法：

spark.sparkContext.textFile("file:///home/maxinehehe/document/ml-1m/adult/adult.data").
      map(_.split(",")).//filter(_!="").filter(p=>(p.size == 15)).
      map(p=>Adult(Vectors.dense(toZero(p(0)), toZero(p(2)), toZero(p(4)),
        toZero(p(10)), toZero(p(11)), toZero(p(12))),p(14).toString())
      ).toDF()

然后使用