spark(58) -- SparkMllib -- SparkMllib的基础数据类型

本文详细介绍了SparkMllib中的数据类型,包括LocalVector(本地向量)、LabelPoint(标签向量)、LocalMatrix(本地矩阵)和DistributedMatrix(分布式矩阵)。本地向量分为稀疏和密集型,分布式矩阵包括RowMatrix、IndexedRowMatrix、CoordinateMatrix和BlockMatrix。这些数据类型在机器学习算法中起着关键作用,特别适用于大规模数据的存储和计算。

1. SparkMllIb数据类型简介

 MLLIB支持很多种机器学习算法中类型,主要有向量和矩阵两种类型。
有下面四种分类:
(1)Local vector本地向量集,主要向Spark提供一组可进行操作的数据集合。
(2)Labeled Point向量标签,让用户能够分类不同的数据集合。
(3)Local matrix本地矩阵,将数据集合以矩阵形式存储在本地计算机中。
(4)Distribute matrix分布式矩阵。将数据集以矩阵的形式存储在分布式的计算机中。

2. Spark的LocalVector本地向量详解及实战

 本地向量主要由两种类型构成:
(1)稀疏型数据集spares
(2)密集型数据集(dense)。
 假设一个向量(9,5,2,7),按密集型数据格式可以设置为(9,5,2,7)进行存储,数据集被作为一个集合的形式整体存储。按稀疏性方式存储,可以按向量的大小存储为(4,Array(0,1,2,3),Array(9,5,2,7)).

import org.apache.spark.mllib
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

erainm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值