八、词嵌入语言模型（Word Embedding）

原创

已于 2024-03-10 15:30:17 修改 · 2.8k 阅读

·

29

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #embedding #人工智能

于 2024-03-10 15:26:50 首次发布

词嵌入（Word Embedding, WE），任务是把不可计算、非结构化的词转换为可以计算、结构化的向量，从而便于进行数学处理。

一个更官方一点的定义是：词嵌入是是指把一个维数为所有词的数量的高维空间（one-hot形式表示的词）【嵌入】到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

Word Embedding 解决了 One-Hot 独热编码的两个问题。参考：一、独热编码（One-Hot）

Word Embedding 矩阵给每个单词分配一个固定长度的向量表示，这个长度可以自行设定，实际上会远远小于字典长度，将词向量映射到了一个更低维的空间。

Word Embedding 矩阵使两个词向量之间的夹角值（最常用到的相似度计算函数是余弦相似度(cosine similarity)）作为他们之间关系的一个衡量，保持词向量在该低维空间中具备语义相似性，越相关的词，它们的向量在这个低维空间里靠得越近。

Word Embedding 示例图：参考Word Embedding介绍

展示将 “way back into love” 翻译成中文的过程：

第一步：将 “way back into love” 四个词分别用四个不同的向量表示（图中采用 One-Hot 独热编码方式为例）；

第二步：通过 Word2vec/GloVe 等词嵌入Word Embedd

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

瑞雪兆我心 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。