Notes—Dense Vector and Sparse Vector

本文介绍了Spark.ml.linalg中的两种向量类型——DenseVector和SparseVector。DenseVector存储所有元素,而SparseVector仅存储非零元素的索引和值,节省空间。此外,还提到了LabeledPoint类以及Python Scipy库中的类似概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

……未完待补充……
ref:
1. Spark官方文档
2. http://bbs.youkuaiyun.com/topics/391002544

在spark.ml.linalg里有两种vector——DenseVector 和 Sparse Vector,两者都继承于Vectors

1.两者区别
DenseVector: a value array

def:
Vectors.dense(values: Array[Double])
(直接把所有的元素都列出来了)

SparseVector : an index and a value array

def:
Vectors.sparse(size: Int, indices: Array[Int], values: Array[Double])
(存储元素的个数、以及非零元素的编号index和值value)

import org.apache.spark.mllib.linalg.{Vector, Vectors}

// Create a dense vector (1.0, 0.0, 3.0).
val dv: Vector = Vectors.dense(1.0, 
### 密集向量在机器学习和自然语言处理中的应用 密集向量(Dense Vector),也称为稠密向量,在机器学习和自然语言处理领域扮演着重要角色。这些向量的特点在于它们几乎所有的元素都是非零值,这与稀疏向量形成对比。 #### 特征表示 在自然语言处理中,词向量作为一种将词语映射为实数向量的方法被广泛应用[^2]。这种低维度的向量能够捕捉到词语之间的语义关系,从而让计算机更高效地理解和处理文本数据。例如,“国王”减去“男人”,再加上“女人”的操作可能会得到接近于“女王”的向量表达形式。 对于整个文档或句子来说,也可以通过平均其组成单词对应的词向量来获得一个固定长度的特征向量作为该文本片段的整体表征。这种方法不仅适用于简单的分类任务,还可以扩展至更为复杂的上下文理解场景。 #### 应用实例 考虑一个情感分析的任务,给定一段评论文字,目标是判断这段话的情感倾向——正面还是负面。利用预训练好的词嵌入模型(如Word2Vec、GloVe等),可以先获取每个词汇项所对应的位置坐标;接着计算整句话里所有位置坐标的均值以构建最终输入给下游预测算法使用的密集型特征矩阵: ```python import numpy as np def get_sentence_vector(sentence, word_vectors): words = sentence.split() vectors = [word_vectors[word] for word in words if word in word_vectors] if not vectors: return None avg_vector = np.mean(vectors, axis=0) return avg_vector.tolist() # 假设我们有一个预先加载好并存储在一个字典里的词向量集合`pretrained_word_vectors` sentence = "I love this product!" vector_representation_of_the_sentence = get_sentence_vector(sentence, pretrained_word_vectors) print(vector_representation_of_the_sentence[:10]) # 打印前十个分量查看部分结果 ``` 上述代码展示了如何基于已有的词向量资源快速转换任意字符串成可供后续建模环节消费的形式化描述方式之一种实现思路。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值