工智能基础知识总结--词嵌入之Word2Vec

最新推荐文章于 2025-05-17 14:35:32 发布

科研程序开发

最新推荐文章于 2025-05-17 14:35:32 发布

阅读量651

点赞数 9

CC 4.0 BY-SA版权

分类专栏：深度学习专栏人工智能学习专栏机器学习专栏文章标签： word2vec 人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Runnymmede/article/details/135517839

人工智能学习专栏同时被 3 个专栏收录

118 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

深度学习专栏

110 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

机器学习专栏

92 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了词嵌入的基本问题，探讨了One-hot和n-gram的局限性，重点讲解了Word2Vec模型，包括CBoW和Skip-gram结构，以及优化方法层次Softmax和负采样。Word2Vec通过上下文预测词或反之，学习词的稠密向量表示，解决了词向量的稀疏性和内存问题。

词嵌入要解决什么问题

在自然语言系统中，词被看作最为基本的单元，如何将词进行向量化表示是一个很基本的问题，词嵌入（word embedding）就是把词映射为低维实数域向量的技术。

下面先介绍几种词的离散表示技术，然后总结其缺点，最后介绍词的分布式表示及其代表技术（word2vec）。
词的离散表示
- One-hot表示
  
  根据语料构造一个大小为V的词汇表，并为每一个词分配一个id。
  
  每个词都可以表示为一个V维向量，除了该词id对应的维度为1外，其余维度为0。
- n-gram
  
  与One-hot类似，只是统计单元由单个的词变成了连续的几个词，如2-gram是统计连续的两个单词构造词典。
- 离散表示的缺点
  - 词向量维度随着词汇表大小的增长而增长带来的内存问题；
  - 词向量过于稀疏，浪费内存，丢失信息；
  - 无法衡量词和词之间的关系。
词的分布式表示

词的分布式表示的核心思想是：一个词是由这个词的周边词汇一起来构成精确的语义信息，因此可以用一个词附近的其他词来表示该词。词的分布式表示有以下几种代表方法：
- 共现矩阵
  
  使用固定大小的滑窗统计词与词在窗口内的共现次数，然后将每个词表示为一个大小为V的矩阵，每个维度为该词与该维度对应词的共现次数。
  
  共现矩阵方法仍然会存在内

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

科研程序开发 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。