机器学习（十四）特征抽取–Word2Vec

原创

于 2020-01-13 09:51:06 发布 · 940 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #大数据 #自然语言处理

本文介绍了Word2Vec的概念，它是一个Estimator，将词语映射到固定大小的向量，用于文档转换和相似度计算。通过Spark进行代码实现，包括引包、构建测试数据和训练模型，将文档转换为预测特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

同步更新在个人网站：http://www.wangpengcufe.com/machinelearning/ml-ml14/

一、概念

Word2vec是一个Estimator，它采用一系列代表文档的词语来训练word2vecmodel。该模型将每个词语映射到一个固定大小的向量。word2vecmodel使用文档中每个词语的平均数来将文档转换为向量，然后这个向量可以作为预测的特征，来计算文档相似度计算等等。

二、代码实现

2.1、引包，获取spark

首先，我们引入相关包：

import java.util.Arrays;
import java.util.List;
import org.apache.spark.ml.feature.Word2Vec;
import org.apache.spark.ml.feature.Word2VecModel;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.ArrayType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark