Embeding技术：word2vec Parameter Learning Explained

最新推荐文章于 2024-05-28 00:15:00 发布

菜小白—NLP

最新推荐文章于 2024-05-28 00:15:00 发布

阅读量1k

点赞数 2

分类专栏： NLP 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ACM_hades/article/details/104031689

版权

本文深入解析word2vec模型，包括CBOW和skip-gram两种模型的原理，以及分层softmax和负采样两种优化技术，帮助理解词嵌入的参数学习过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考链接

论文链接：https://arxiv.org/pdf/1411.2738v4.pdf

一、主要内容：

word2vec模型：
- CBOW 模型：continuous bag-of-word
- SG模型：skip-gram
优化技术：
- 分层softmax：hierarchical softmax
- 负采样：negative sampling

二、CBOW 模型：

1、One-word context 模型：
- 模型图：
- 上图是一个全连接神经网络，在预测当前此时我们只使用前一个词作为上下文信息，就像一个二元模型(bigram model)一样。
- 输入层是一个单词的one-hot表示， $V$ 是词汇表的大小，隐藏层单元个数为 $N$
- 输入层到隐藏层：连接矩阵为 $W_{V×N}$ ，隐藏层与输入层的连接是简单的线性连接(即没有激活函数)，两层的连接公式为:
- $v_{wI}^T$ 是 $W^T$ 的列(即 $W$ 的行)， $w_I$ 是输入的词。
- 由于 $X$ 是单词的one-hot表示，若 $X$ 表示词汇表的第 $k$ 个单词，则 $X$ 列向量除了第 $k$ 个元素为1以外其他元素都是0,这样 $h=W^TX$ ，这相当于取出 $W^T$ 的第 $k$ 列(即 $W$ 的第 $k$ 行)作为 $h$ ，实质这就是第 $k$ 个单词的embeding表示.
- 隐藏到输出层：连接矩阵为 $W_{N × V}'$ , 两层的连接公式为: $U={W'}^T h$ $U$ 是一个大小为 $V$ 的列向量，每个元素对于词汇表的一个词，我把每个元素称为其对应词的分数 (score)，第 $j$ 个词的分数就是公式如下:
  
  $u_j$ 是词汇表中第 $j$ 个词的得分也是输出层每个单元的输入， ${ {v_{wj}}'}^T$ 是 $W^{'}$ 的第 $j$ 列。
- 然后将 $U$ 经过一softmax层(softmax：一个对数线性分类模型)得到每个单词的后验分布(即概率值)，softmax层表达式(第 $j$ 个词的后验概率):
  
  上式的含义是输入词汇表的第 $I$ 个单词输出第 $j$ 个词的概率，即第 $j$ 个词在第 $I$ 个词后面的概率，其中 $y_j$ 是输出层第 $j$ 个单元的输出，对应于词汇表的第 $j$ 个词。
- 注意： $v_w$ 和 $v_w'$ 是对应单词 $w$ 的两表示，我们将他们分别称为 $w$ 的输入向量与输出向量，输入向量 $v_w$ 是输入层到隐藏层连接矩阵 $W$ 的行，输出向量是隐藏层到输出层连接矩阵 $W^{'}$ 的列
- 隐藏层到输出层参数

最低0.47元/天解锁文章

目录

分类专栏

RL
NLP 40篇
ACM 22篇
Python 17篇
Tensorflow 18篇
ML 17篇
Pytorch 2篇

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。