sparkmllib数据类型

最新推荐文章于 2024-08-05 12:12:53 发布

illbehere

最新推荐文章于 2024-08-05 12:12:53 发布

阅读量918

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/illbehere/article/details/54094208

本文介绍了如何使用Apache Spark的MLlib库创建和操作局部向量与矩阵，包括密集型和稀疏型数据结构的创建方法，并展示了从LIBSVM格式文件加载训练数据的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

局部向量

有三种方式创建局部向量

import org.apache.spark.mllib.linalg.{Vector, Vectors}

// Create a dense vector (1.0, 0.0, 3.0).
val dv: Vector = Vectors.dense(1.0, 0.0, 3.0)
// Create a sparse vector (1.0, 0.0, 3.0) by specifying its indices and values corresponding to nonzero entries.
val sv1: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))
// Create a sparse vector (1.0, 0.0, 3.0) by specifying its nonzero entries.
val sv2: Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0)))

Labeled point

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint

// Create a labeled point with a positive label and a dense feature vector.
val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))

// Create a labeled point with a negative label and a sparse feature vector.
val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)))

稀疏数据

在机器学习中训练数据一般是非常稀疏的。mllib支持读取LIBSVM 格式的数据。格式如下：

label index1:value1 index2:value2 ...

数据读取代码如下：

import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.rdd.RDD

val examples: RDD[LabeledPoint] = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt")

局部矩阵（基）

对于稀疏矩阵，它是通过CSC(Compressed Sparse Column)方式存储数据。它是列主序的。以下矩阵它可以存储为：[1.0, 3.0, 5.0, 2.0, 4.0, 6.0] 一维数组，指定它的矩阵大小（3，2）
这里写图片描述

import org.apache.spark.mllib.linalg.{Matrix, Matrices}

// Create a dense matrix ((1.0, 2.0), (3.0, 4.0), (5.0, 6.0))
val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0))

// Create a sparse matrix ((9.0, 0.0), (0.0, 8.0), (0.0, 6.0))
val sm: Matrix = Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2, 1), Array(9, 6, 8))