NLP基础2-词向量之Word2Vec

知识复盘计划

已于 2023-11-07 02:11:13 修改

阅读量244

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理 word2vec 人工智能 python

于 2023-11-02 20:22:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_45792437/article/details/134190023

版权

NLP基础1-词向量之序号化，One-Hot，BOW/TF，TF-IDF
NLP基础2-词向量之Word2Vec
NLP基础3-词向量之Word2Vec的Gensim实现

文章目录

一、Word Embedding
二、Word2Vec 基本介绍
三、Word2Vec-CBOW
- 1. 前向过程
- 2. 代码实现
四、Word2Vec-Skip-gram
- 1. 前向过程
- 2. 代码实现
总结
参考资料

一、Word Embedding

1. 什么是词嵌入，Word Embedding？

词嵌入是一种将词汇表中的单词或短语映射为固定长度向量的技术，通过词嵌入技术我们可以将 one-hot 编码表示的高维稀疏向量转为低维稠密的向量。

举例说明

我门将单词 “we” 用 one-hot 编码表示，维度为（1，N），其中 N 为词汇表大小
词嵌入层的维度大小为（N，V），其中 V 为嵌入层维度，通常为 100 左右
（1，N）* （N，V）= （1，V），该低维稠密的向量就可以表征单词 “we”
Note: 由于one-hot编码只在对应位置为1，其余位置均为0，这就类似于在词嵌入层中的查找某一行的向量，因此词嵌入层的每一行其实就是代表一个单词的特征信息

Embedding

2. 词嵌入技术的优势：

相比上万维的 ont-hot 编码，词嵌入的效率更高并且更具有通用性，可以用在不同的NLP任务中；
可以理解单词与单词之间的语义信息，并进行词语推理，语义相似的词在向量空间上也会更相近；

3. 词嵌入的相关算法

基于矩阵分解的主题模型：LDA，NMF 等
基于神经网络的 Word2Vec：CBOW，Skip-Gram 等

二、Word2Vec 基本介绍

1. 两个算法：

continuous bag-of-words(CBOW) 和 Skip-gram

CBOW 是根据上下文预测中心词
Skip-gram 则相反，是根据中心词预测上下文

这两种方法训练得到的隐层参数即为词向量

在这里插入图片描述

2. 两个优化方法

负采样（Negative Sampling）
层次 Softmax （Hierarchical Softmax）

相关论文：Mikolov et. al., 2013. Efficient estimation of word representations in vector space.

3. 主要应用

<

最低0.47元/天解锁文章

知识复盘计划

博客等级

码龄6年

12
原创

161
点赞

145
收藏

115
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

目标检测6——一阶段目标检测概述
优快云-Ada助手: 恭喜你写了第10篇博客！看到你对一阶段目标检测的概述，我感到非常兴奋。你的文章内容清晰易懂，对于这个复杂的主题做了很好的总结。接下来，我建议你可以深入探讨一些具体的一阶段目标检测算法，或者分享一些实际应用案例，这样可以让读者更加深入地了解这个领域。期待你的下一篇文章！加油！
目标检测7——SSD: Single Shot MultiBox Detector
优快云-Ada助手: 恭喜您写了第11篇博客，标题为“目标检测7——SSD”！您的持续创作精神令人钦佩。阅读您的博客，我深入了解了SSD目标检测的相关知识，受益匪浅。在下一步的创作中，我建议您可以进一步拓展内容，例如探索SSD目标检测在实际应用中的效果和局限性，或者与其他目标检测算法进行对比分析。同时，如果您能分享一些实践经验或者提供一些实际案例，将会使博客更加实用和有趣。再次恭喜您的创作成果，并期待您未来更多精彩的博客！谢谢您的分享！
图像分类1-LeNet模型结构及其Pytorch实现
优快云-Ada助手: 恭喜作者撰写了第12篇博客，“图像分类1-LeNet模型结构及其Pytorch实现”！不断分享知识和经验，对读者们来说是个很好的学习机会。希望作者能继续保持创作的热情和动力，也期待能够看到更多深度学习方面的分享。或许在下一篇博客中，可以探讨一下LeNet模型的优化或者应用场景的拓展，这样可以让读者们有更多的收获。再次感谢作者的分享，期待更多精彩的内容！
目标检测5——Faster R-CNN（RPN网络代替Selective Search来获取候选框）
优快云-Ada助手: “恭喜您第9篇博客的发布！看到您对Faster R-CNN的深入探讨，我感到非常欣慰。不过我还是希望您能在下一篇博客中加入更多实际案例和应用场景的分析，这样更能帮助读者理解和应用您所分享的知识。期待您的下一篇作品！”
目标检测3——SPPNet（空间金字塔池化可以接收任何尺度的图像）
优快云-Ada助手: 恭喜作者发布了第7篇博客，内容涉及SPPNet的目标检测技术，对于空间金字塔池化能够接收任何尺度的图像进行了深入探讨。非常感谢作者对于技术的深入研究和分享，让我们也能够更深入地了解这方面的知识。希望作者在接下来的创作中，可以适当地加入一些实际案例或者应用场景的分析，让读者更好地理解技术在实际中的应用。同时也可以考虑添加一些与其他相关技术的对比分析，这样可以更好地帮助读者进行技术选择和应用。期待作者在未来的创作中继续保持热情，分享更多有价值的内容，谢谢！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。