图解词向量的特征

最新推荐文章于 2025-11-25 14:31:30 发布

原创最新推荐文章于 2025-11-25 14:31:30 发布 · 1.1k 阅读

·

33

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能 #算法 #自然语言处理

Transformer通关秘籍专栏收录该内容

30 篇文章

订阅专栏

大家好啊，我是董董灿。

本文以图解的方式来讲解什么是词向量以及其特征如何理解。

按惯例，先看一个例子。

例子：你是什么样的人？

本例来源于 Jay Alammar 的博客，我在原文基础上进行了精简和提炼。

不知道你是否做过性格测试。

在很多类似的测试中，都会有许多道题来让你回答，然后从多个维度、多个方面衡量你的潜力或特质，然后给出分值，最后综合来评判你是一个什么样的人。

假设一个叫Jay 的人做完性格测试，在“你是属于内向还是外向？”这项测试中得到了38分。这里满分为100，分数越高，说明人越外向，分数越低，说明人越内向。

为了抹平多项测试间的分值差异，这里将所有得分的数据归一化到 [-1,1] 之间。归一化后内外向得分为 -0.4 分，负值说明内向，正值说明外向。

此时很明显，说明Jay这个人偏内向。但也仅此而已，我们从 -0.4 这个分数看不出 Jay 有其他什么品质，仅仅知道他偏内向而已。

这个时候，如果再增加一个测试项目的得分，假设 Jay 在另一个测试项目中得分为 0.8 分。

此时，根据这两个测试项目的数据，我们知道 Jay 这个人在第一个性格(Trait #1：内外向)中得分为 -0.4，他偏内向。

在第二个性格中得分0.8。

虽然这里没指明第二个性格具体代表的是什么(比如你可以理解为“是否任劳任怨加班？”，0.8 分说明他是一个加班狂)，但至少我们对 Jay 的认识又增加了一些。

假设，现在Jay在上班途中被车撞了，公司需要一个人来顶替他的工作内容，有两个候选人（Person #1 和 person #2），他们在这两项测试中的得分如下：

根据这两个候选人的得分，你更倾向于让谁来代替Jay呢？

你可能会说，看样子 person#1 和 Jay 在两项上的得分更相近，两人具有更类似的特质，可以让 person#1来代替 Jay。

是的，在数学模型上，衡量两个人的性格数据（这里实际上是向量）是否相似，可以使用余弦相似度的方法，这个在上一节介绍过了。

通过计算，可以的得到余弦相似度数值为：

很明显，person #1 获选，因为他和Jay的余弦相似度更高。

上述每一项（Trait #1, Trait #2）的得分都代表了这个人在某一项测试中的特质或潜力，或者说是这个人在某性格维度上的特征值。

但是 2 个特征还不足以完全代表一个人，因此我们可以将特征数量继续增加：

继续计算余弦相似度：

通过计算，仍然得到 person #1 与 Jay 更相似的结论。

至此，Person #1 获选，说明Person #1 和Jay更相似，更容易获得这份工作。

如果把上述例子中的得分组成的向量看做是词嵌入向量，那么其中的数值，便是代表一个单词在各个维度特征的得分值。

比如在我的《Transformer最后一公里》专栏中会提到，猫(cat)可以是以下特征的集合：

cat = [会跑(1)、会爬树(0.9)、会叫(1.0)、粘人(0.6)、会抓老鼠(0.6)，会游泳(-0.9)，会喷火(-1.0)...]

只要给够足够多的维度得分，一个向量便可以更加精确的表示猫(cat)这个单词。

这便是词向量的作用，作为单词各维度语义的集合而存在。

欢迎订阅Transformer专栏，里面会有更多算法的使用动机和通俗的讲解，还会有代码实战哦。

我的Transformer专栏来啦-优快云博客文章浏览阅读566次，点赞12次，收藏5次。现在很多主流的大语言模型，比如chatGPT都是基于该架构进行的模型设计，可以说Transformer顶起了AI的半壁江山。对于这些有些枯燥的概念，有些乏味的数学表达，我会尽可能说的直白和通俗易懂，打通理解Transformer的最后一公里。我会在本公众号进行文章的首发，相关文章会添加标签“Transformer专栏”，可点击文章左下角的标签查看所有文章。巧的是，下班路上刚手敲完大纲，晚上一个小伙伴来咨询学习LLM的事情，问我之前写的《五一节前吹的牛，五一期间没完成，今天忙里偷闲，给完成了。https://blog.youkuaiyun.com/dongtuoc/article/details/138633936?spm=1001.2014.3001.5501

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

董董灿是个攻城狮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。