word embedding概述

最新推荐文章于 2025-05-13 17:24:08 发布

yolan6824

最新推荐文章于 2025-05-13 17:24:08 发布

阅读量357

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yolan6824/article/details/86739882

人工智能专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨了词向量的概念，包括窗口、误差函数等关键要素，并详细解析了word2vec模型的两种主要方法：CBOW和skip-gram。此外，还对比了一热编码的局限性和词向量的优势，以及如何通过上下文预测中心词或反之，展现了词向量在语义相似性计算上的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.窗口

假设窗口是2，这意味着根据两个词来预测下一个词，而正确的词概率最高。通过训练，使正确的词概率最高。

2.误差函数

使用交叉熵，也可以用最小二乘法，但交叉熵在分类问题上效果更好。

3.word2vec

输入是one hot形式。

4.CBOW

通过上下文预测中心词。

5.skip-gram

通过中心词预测上下文。

6.one-hot表示的缺点

（1）无法度量两个词之间的关系，因为one-hot编码使得词之间两两正交。（语义相似性）

（2）one-hot编码表现语义方面比较差。

7.词表示的方法

（1）基于计数的方法

比如对于以下四个句子，要学习kitten,cat,dog的词向量，窗口为3，因此只截取目标单词左右三个单词。

and the cute kitten purred and then

the cute furry cat purred and miaowed

that the small kitten miaowed and she

the loud furry dog ran and bit

去掉功能性单词（and the then that she）

剩下的单词做成一个集合：{cute，purred，furry，miaowed，small，loud，ran，bit}

用这些集合中的单词表示三个目标单词，有：

kitten:[1,1,0,1,1,0,0,0]

cat: [1,0,1,1,0,0,0,0]

dog: [0,0,1,0,0,1,1,1]

同时计算两两词之间的相似性，用余弦相似度（cos(u,v) = u点乘v/（u的长度*v的长度））

cos(kitten,cat) = 2/(2*根号3) = 0.58

cos(kitten,dog) = 0

cos(cat,dog) = 1/(根号3*2) = 0.29

计算相似性还可以用内积。

这种方法的意思是词语的相似性取决于上下文的相似性。

#词向量的长度与窗口长度呈正相关。

（2）基于语境预测的方法

（3）基于任务的方法

8.关于sigmoid和softmax

softmax函数一般用于将向量转化为概率值，向量中值最大的元素，概率也最大。公式就是

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。