Pytorch Note40 词嵌入（word embedding）

最新推荐文章于 2025-05-13 22:10:57 发布

风信子的猫Redamancy

最新推荐文章于 2025-05-13 22:10:57 发布

阅读量2.3k

点赞数 9

CC 4.0 BY-SA版权

分类专栏： 🪐Pytorch学习快乐星球文章标签：神经网络机器学习深度学习人工智能词嵌入

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45508265/article/details/119362381

🪐Pytorch学习快乐星球专栏收录该内容

61 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了词嵌入的概念，用于解决自然语言处理中单词编码的问题。词嵌入通过向量表示单词，使词性相近的词在向量空间中的夹角小，从而表示它们的相似性。在PyTorch中实现词嵌入非常简单，可以通过nn.Embedding创建词嵌入矩阵。接着讲解了Skip-Gram模型，该模型通过预测词的上下文来训练词嵌入，用于构建词向量。最后，文章描述了模型结构和训练样本的生成方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pytorch Note40 词嵌入（word embedding）

文章目录

Pytorch Note40 词嵌入（word embedding）

全部笔记的汇总贴： Pytorch Note 快乐星球

词嵌入

前面讲了循环神经网络做简单的图像分类问题和飞机流量时序预测，但是现在循环神经网络最火热的应用是自然语言处理，下面我们介绍一下自然语言处理中如果运用循环神经网络，首先我们介绍一下第一个概念，词嵌入。

对于图像分类问题，我们可以使用 one-hot 的类型去编码，比如一共有 5 类，那么属于第二类就可以用 (0, 1, 0, 0, 0) 去表示，对于分类问题，这样当然忒别简单，但是在自然语言处理中，因为单词的数目过多，这样做就行不通了，比如有 10000 个不同的词，那么使用 one-hot 不仅效率低，同时还没有办法表达出单词的特点，这个时候就引入了词嵌入去表达每一个单词。

词向量简单来说就是用一个向量去表示一个词语，但是这个向量并不是随机的，因为这样并没有任何意义，所以我们需要对每个词有一个特定的向量去表示他们，而有一些词的词性是相近的，比如”(love)喜欢”和”(like)爱”，对于这种词性相近的词，我们需要他们的向量表示也能够相近，如何去度量和定义向量之间的相近呢？非常简单，就是使用两个向量的夹角，夹角越小，越相近，这样就有了一个完备的定义。

我们举一个例子，下面有 4 段话

The

了解本专栏

超级会员免费看

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

风信子的猫Redamancy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。