word2vec基于负采样的模型原理介绍

最新推荐文章于 2025-06-04 02:58:19 发布

大大kc

最新推荐文章于 2025-06-04 02:58:19 发布

阅读量1.4w

点赞数 4

深度学习专栏收录该内容

8 篇文章

订阅专栏

word2vec是由Google在2013年开源的一款用于获取词向量的工具包，本文通过解读其源代码揭示了word2vec背后的算法原理，包括Hierarchical Softmax与Negative Sampling两种模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

    word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟，出于好奇，我也成为了他们中的一员。读完代码后，觉得收获颇多，整理成文，给有需要的朋友参考。

相关链接

（一）目录和前言

（二）预备知识

（三）背景知识

（四）基于 Hierarchical Softmax 的模型

（五）基于 Negative Sampling 的模型

（六）若干源码细节