面试：关于word2vec的相关知识点Hierarchical Softmax和NegativeSampling

hungita

已于 2024-06-23 21:56:46 修改

阅读量505

点赞数 5

分类专栏：算法工程师面试文章标签： word2vec 人工智能机器学习

于 2024-06-23 21:43:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hungita/article/details/139906807

版权

1、为什么需要Hierarchical Softmax和Negative Sampling

从输入层到隐含层需要一个维度为N×K的权重矩阵，从隐含层到输出层又需要一个维度为K×N的权重矩阵，学习权重可以用反向传播算法实现，每次迭代时将权重沿梯度更优的方向进行一小步更新。但是由于Softmax激活函数中存在归一化项的缘故，推导出来的迭代公式需要对词汇表中的所有单词进行遍历，使得每次迭代过程非常缓慢，由此产生了Hierarchical Softmax和Negative Sampling两种改进方法。

2.Hierarchical Softmax

层次softmax基本思想是将复杂的归一化概率分解为一系列条件概率乘积的形式：

每一层条件概率对应一个二分类问题，通过逻辑回归函数可以去拟合。对v个词的概率归一化问题就转化成了对logv个词的概率拟合问题。

Hierarchical softmax通过构造一棵二叉树将目标概率的计算复杂度从最初的V降低到了logV的量级。但是却增加了词与词之间的耦合性。比如一个word出现的条件概率的变化会影响到其路径上所有非叶子节点的概率变化。间接地对其他word出现的条件概率带来影响。

哈夫曼树是带权路径和最短的最优二叉树，所以通过对词表中的词进行树构造，可以生成一个哈夫曼树，越接近根节点的词，其词频是越高的，我们需要优先更新，越向下，词频越低，更新频率也小一点，通过这样的方式就可以实现训练速度的加快。
具体来说

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hungita 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。