word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量(word vector)的工具包,它简单、高效,因此引起了很多人的关注。我在看了@peghoty所写的《word2vec中的数学以后》
1.单词的向量化表示
所谓的word vector,就是指将单词向量化,将某个单词用特定的向量来表示。将单词转化成对应的向量以后,就可以将其应用于各种机器学习的算法中去。一般来讲,词向量主要有两种形式,分别是稀疏向量和密集向量。
所谓稀疏向量,又称为one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小N,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的索引[1]

本文介绍了word2vec的基本概念,包括单词的向量化表示,如稀疏向量和密集向量,以及word2vec的核心模型——CBOW和skip-gram。此外,还探讨了基于Hierarchical Softmax的模型,以降低计算复杂度。word2vec的主要流程包括分词、词典构造、树形结构构建以及训练词向量。
最低0.47元/天 解锁文章
810

被折叠的 条评论
为什么被折叠?



