1. SparkMllIb数据类型简介
MLLIB支持很多种机器学习算法中类型,主要有向量和矩阵两种类型。
有下面四种分类:
(1)Local vector本地向量集,主要向Spark提供一组可进行操作的数据集合。
(2)Labeled Point向量标签,让用户能够分类不同的数据集合。
(3)Local matrix本地矩阵,将数据集合以矩阵形式存储在本地计算机中。
(4)Distribute matrix分布式矩阵。将数据集以矩阵的形式存储在分布式的计算机中。
2. Spark的LocalVector本地向量详解及实战
本地向量主要由两种类型构成:
(1)稀疏型数据集spares
(2)密集型数据集(dense)。
假设一个向量(9,5,2,7),按密集型数据格式可以设置为(9,5,2,7)进行存储,数据集被作为一个集合的形式整体存储。按稀疏性方式存储,可以按向量的大小存储为(4,Array(0,1,2,3),Array(9,5,2,7)).
import org.apache.spark.mllib
本文详细介绍了SparkMllib中的数据类型,包括LocalVector(本地向量)、LabelPoint(标签向量)、LocalMatrix(本地矩阵)和DistributedMatrix(分布式矩阵)。本地向量分为稀疏和密集型,分布式矩阵包括RowMatrix、IndexedRowMatrix、CoordinateMatrix和BlockMatrix。这些数据类型在机器学习算法中起着关键作用,特别适用于大规模数据的存储和计算。
订阅专栏 解锁全文
771

被折叠的 条评论
为什么被折叠?



