Spark Scala选取面向行数据中的某几列

notheory

于 2015-04-25 21:32:33 发布

阅读量7.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： scala&spark 文章标签： Scala Spark 取列面向行数据处理

本文链接：https://blog.youkuaiyun.com/notheory/article/details/45274433

博客介绍了如何在Spark Scala中针对面向行的数据选取特定列，通过获取列的下标，利用for...yield...语句生成新的数据数组，并进行类型转换成Array类型，为后续的聚类分析（如k-means）做准备。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

比如数据格式如下：

Attribute1 Attribute2 Attribute3

a 1 3

b 4 2

c 2 3

现在我们要选取其中的Attribute2和Attribute3。

val origin_values = origin_data.map(s=>(for{i<-1 to s.split(" +").length-1}
                                       yield s.split(" +")(i).toDouble))<span style="font-family: Arial, Helvetica, sans-serif;">.map(_.toArray)</span><span style="font-family: Arial, Helvetica, sans-serif;">.map(Vectors.dense(_)</span>

第一行：我们可以得到需要的数据所在的列的下标，由于实际上是按照行来取列，所以是数组的下标

第二行：使用for...yield...语句，生成新的数组，但是由于for后的i是一个IndexedSeq类型，所以返回的新数组也是这个类型。这个问题也是之前一直卡着的，后来才想到可以用多个map来解决。

第三行：类型转换，在这里我们需要Array类型

第四行：我们假设要准备对目标数据进行聚类分析，因此生成kmeans算法所需要的格式