Spark Scala选取面向行数据中的某几列

博客介绍了如何在Spark Scala中针对面向行的数据选取特定列,通过获取列的下标,利用for...yield...语句生成新的数据数组,并进行类型转换成Array类型,为后续的聚类分析(如k-means)做准备。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

比如数据格式如下:

Attribute1   Attribute2   Attribute3

       a                   1                 3

       b                   4                 2

       c                   2                 3

现在我们要选取其中的Attribute2和Attribute3。


val origin_values = origin_data.map(s=>(for{i<-1 to s.split(" +").length-1}
                                       yield s.split(" +")(i).toDouble))<span style="font-family: Arial, Helvetica, sans-serif;">.map(_.toArray)</span><span style="font-family: Arial, Helvetica, sans-serif;">.map(Vectors.dense(_)</span>


第一行:我们可以得到需要的数据所在的列的下标,由于实际上是按照行来取列,所以是数组的下标

第二行:使用for...yield...语句,生成新的数组,但是由于for后的i是一个IndexedSeq类型,所以返回的新数组也是这个类型。这个问题也是之前一直卡着的,后来才想到可以用多个map来解决。

第三行:类型转换,在这里我们需要Array类型

第四行:我们假设要准备对目标数据进行聚类分析,因此生成kmeans算法所需要的格式




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值