【大数据】-- Spark 稠密向量与稀疏向量

最新推荐文章于 2025-04-08 08:00:00 发布

oo寻梦in记

最新推荐文章于 2025-04-08 08:00:00 发布

阅读量804

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Apache Spark 算法机器学习文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/high2011/article/details/129299658

Apache Spark 同时被 3 个专栏收录

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

算法

2 篇文章

订阅专栏

机器学习

1 篇文章

订阅专栏

本文介绍了机器学习中稀疏向量和稠密向量的概念，特别是在Spark ML库中的应用。稀疏向量适用于高维且大部分元素为0的情况，能有效节省空间并提高计算效率。在Spark中，可以使用Vectors.dense和Vector.sparse方法创建向量，后者提供了两种创建稀疏向量的方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、什么是稀疏向量？什么是稠密向量？

在机器学习中，算法工程师会经常用到向量，包括对特征的存储，优化的计算等等。但是具体实现时，经常会采用两种方式存储向量。

一种是使用数组的数据结构对向量建模，这种结构通常存储普通的向量，也称为稠密向量。

一种是使用 map 的数据结构对向量建模，这种结构存储的向量大多数元素等于零，这种向量称为稀疏向量。（先归一化，再创建）

使用这两种不同的存储结构的原因是机器学习中的特征很多时候是高维空间中的元素，具有成千上万的分量，而这些分量是通过离散化得到的，所谓离散化，就是将原来取值为实数（比如某个特征为价格，取值为525.2）的特征，根据取值范围（例如范围在250~700之间）分为若干个区间（例如按照每间隔10为一个区间，即分成了250~260……340~350，350~360，360~370 ，690~700，），原来的一维特征也相应离散为若干维。

如果价格在470~480的区间中，则相应维度的特征取值为1，其他维度的特征取值为0。因此，如果使用稀疏向量存储，不仅节省空间，而且在后续的各种向量操作和优化的计算中会提高效率。