自然语言处理基础知识入门(二) Word2vec模型，层次softmax，负采样算法详解

这个男人是小帅

已于 2024-07-08 21:06:43 修改

阅读量2.1k

点赞数 9

分类专栏： NLP自然语言知识梳理入门文章标签： nlp 语言模型机器翻译自然语言处理神经网络深度学习 word2vec

于 2024-04-02 18:25:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_47332746/article/details/137196408

版权

NLP自然语言知识梳理入门专栏收录该内容

7 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

在这里插入图片描述

文章目录

前言
一、Word2vec模型
二、优化算法
总结

前言

提示：这里可以添加本文要记录的大概内容：
在上一篇博文中，详细探讨了NLP（自然语言处理）领域中两个核心技术：基于统计的N-gram模型与基于深度学习的NNLM（神经网络语言模型）。阐明了N-gram模型在处理单词时倾向于将它们视为孤立的单位(独热编码)，这种方法可能忽略了单词之间在某些层面上的相似性，从而在语义理解方面有所不足。这些模型主要依赖于对统计信息的聚合。为了克服这些局限性并赋予词向量丰富的语义信息，可以利用深度神经网络。通过利用目标词语之前的词向量去预测它本身，这种方法成功地为词向量赋予了包含语义信息的能力。然而，这种算法最大的挑战是它所需的多分类运算——分类的数量与词汇表的规模相匹敌，这在处理大型词汇库时无疑是计算上与性能上的巨大挑战。正因如此，Word2Vec模型对此技术进行了创新和优化，极大地加快了词向量的语义信息学习过程。

在这篇文章中，旨在帮助读者深入理解相关知识，为此，选择了将算法原理和应用思想分开讲解，以便于提供一个更加清晰的学习路径。

Wor

了解本专栏

超级会员免费看

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

这个男人是小帅 请小弟喝杯咖啡☕️鼓励下吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。