[NLP] 秒懂词向量Word2vec的本质

最新推荐文章于 2024-08-31 20:43:07 发布

转载最新推荐文章于 2024-08-31 20:43:07 发布 · 504 阅读

人工智能同时被 2 个专栏收录

14 篇文章

订阅专栏

深度学习

8 篇文章

订阅专栏

本文深入浅出地解析了Word2vec的理论核心，包括其在自然语言处理中的应用，以及如何使用gensim训练词向量并寻找相似词。通过Skip-gram和CBOW模型，展示了词向量是如何捕捉词语间的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：https://zhuanlan.zhihu.com/p/26306795

3. 正文

你会在本文看到：

提纲挈领地讲解 word2vec 的理论精髓
学会用gensim训练词向量，并寻找相似词

你不会在本文看到

神经网络训练过程的推导
hierarchical softmax/negative sampling 等 trick 的理论和实现细节

3.1. 什么是 Word2vec?

在聊 Word2vec 之前，先聊聊 NLP (自然语言处理)。NLP 里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理 NLP 的问题，首先就要拿词语开刀。

举个简单例子，判断一个词的词性，是动词还是名词。用机器学习的思路，我们有一系列样本(x,y)，这里 x 是词语，y 是它们的词性，我们要构建 f(x)->y 的映射，但这里的数学模型 f（比如神经网络、SVM）只接受数值型输入，而 NLP 里的词语，是人类的抽象总结，是符号形式的（比如中文、英文、拉丁文等等），所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而 Word2vec，就是词嵌入（ word embedding) 的一种

我在前作『都是套路: 从上帝视角看透时间序列和数据挖掘』提到，大部分的有监督机器学习模型，都可以归结为：