word embedding笔记（来自李宏毅老师的课程讲解）

最新推荐文章于 2022-04-09 21:56:26 发布

正在吃饭的派大星

最新推荐文章于 2022-04-09 21:56:26 发布

阅读量308

点赞数

分类专栏：机器学习笔记文章标签：自然语言处理机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_47182486/article/details/119961446

版权

机器学习笔记专栏收录该内容

1 篇文章

订阅专栏

本文介绍了词嵌入技术，如何通过无监督学习将单词转换为向量表示，以及CBOW和Skipgram方法在捕捉单词上下文中的应用。重点讲解了使用预测模型预测文本中单词的概率，以及如何通过权值共享保持多词输入的向量一致性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ppt来自于李宏毅老师的讲解视频：

单词向量表示：

1可以用独热码（占用空间太大，并且单词之间的关系没有体现）

2分类后词嵌入（减少空间，相同类型的向量更加接近）
在这里插入图片描述

词嵌入

首先词嵌入是无监督学习，输入单词输出对应向量表示。
在这里插入图片描述
词嵌入中需要利用单词的上下文

1：count based

两个单词如果频繁的一起出现，向量会接近
在这里插入图片描述

2：prediction based

在这里插入图片描述
处理的是一个句子其中wi代表的是一个单词
每次输入一个单词的独热码向量，输出的是概率向量，每一位代表对应单词的概率。
模型内部，第一层作为对应单词的词向量。

例如输入的是[0,0,1,0,0]经过第一层的权值相乘得到第一层为[0.2,0.5,0.4]
这个向量便是对应词向量。需要注意词向量一般比独热向量短。

这样训练后，第一层网络就可以作为嵌入层了。

同时，由于文本预测需要考虑较多的上下文，每次可以输入多个单词独热向量，但是要注意：不同的独热向量中相同单元和对应嵌入层单元之间的权值要相同。
在这里插入图片描述
设W为输入层和嵌入层的权重矩阵，那么可以将多个单词的独热向量相加后输入，获得多个单词的词向量。

但是需要注意的是W1和W2相同，这就需要给W相同的初始值，并且梯度更新的时候需要额外操作来保证相同，即每次更新的值相同：
在这里插入图片描述

训练方法

基础方法：
按照句子的顺序依次输入，获得独热输出，减小交叉熵。
在这里插入图片描述
CBOW方法：
用前后两个词获取中间的词

Skip gram：
用中间的词预测前后的词

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。