学习Transformer,应该从词嵌入WordEmbedding开始

如果你想吃第5个馒头,总要先吃了前4个才可以。

学习也一样,需要循序渐进。

很多同学觉得Transformer模型难学,看不懂;

这是因为Transformer是一个非常复杂的模型。

其中包括了很多的基础知识;

这些基础知识都需要同学们提前掌握;

然后才能开始学习Transformer模型中的特有内容。

img

例如,图中的红框圈出了:

线性层(Linear);

词嵌入(Embedding);

前馈神经网络(Feed-Forward);

…等等。

这些部分,都是学习Transformer模型的前提依赖。

就比如我们完全没办法跳过线性层,直接去学习多头注意力机制;

这是因为多头注意力机制,就是由多个线性层构成的。

对于初学者来说,Transformer模型的第一个组件:

img

词嵌入(Embedding)层,第一个学习难点。

看不明白Embedding层,就很容易就被劝退了。

今天,我就试着从头,从零讲解Transformer模型。

其中会详细讲解Transformer模型的第一个组件:

什么是词嵌入,Embedding技术。

这里我先笼统、概述的说一下Embedding技术。

实际上,只要是使用深度学习模型处理NLP问题;

都需要在模型中添加,Embedding层。

例如,在下面的llama3架构中:

img

其中的2号位置,就是词嵌入层。

Embedding层用于将离散的单词数据,转换为连续且固定长度的向量:

img

这样使模型才能处理和学习这些数据的语义信息。

例如,我们希望将“Are you OK ?”这句话,作为神经网络模型的输入。

此时神经网络是没办法直接处理这句文本的。

我们需要先将“Are you OK ?”,基于词表vocab,转为整数索引序列的形式。

例如,转为1、2、3、4。

然后再基于Embedding层,将整数索引序列,转换为单词向量的序列。

过程如下图所示:

img

这里假设每个单词用4维的向量表示。

那么四个词的句子“Are you OK ?”,就会被转换为4*4的词向量矩阵;

每行对应一个单词。

得到输入文本的词向量矩阵后,才可以继续使用神经网络对文本进行特征提取和处理。

下面,我就重点讲解词嵌入技术的三个关键部分:

1.词嵌入的作用

2.嵌入矩阵的计算

3.Embedding层的代码实验

帮助大家理解词嵌入(Embedding)技术的原理和使用方法。

1.词嵌入有什么用

词嵌入是一种将词汇表中的词或短语,映射为固定长度向量的技术。

通过词嵌入,我们可以将高维且稀疏的单词索引,转为低维且连续的向量。

转换后的连续向量,可以表示出单词与单词之间的语义关系。

例如,假设词汇表中有10000个单词:

img

此时我们希望表示出man、woman、king、queen四个词语

这四个词语的索引是1~10000中的4个整数。

如果用one-hot向量表示这4个词;

那么就需要4个10000维度的one-hot向量。

这种表示方法,不仅维度高,而且非常的稀疏。

在向量中,只有1个维度是1,其他维度都是0。

不仅如此,单词向量和单词向量之间,都是正交的,没有任何语义关系。

我们使用词嵌入技术,可以把上述的4四个高维稀疏的onehot向量,转换为低维连续向量。

img

转换后的向量,每个维度都是一个浮点数。

图中就表示了,将单词映射到一个7维的空间中;

那么每个词语就都对应了一个7维的浮点数向量。

为了进一步说明词与词之间的关系:

我们还可以使用PCA降维算法,将7维的词嵌入向量降维至2维。

从而将单词向量在平面上绘制出来。

例如,在下图中:

img

语义相近的词语,词语对应的向量位置也更相近。

例如,cat猫与kitten小猫的含义相近,它们就聚在一起。

horse、dog与cat的语义差异比kitten大,所以它们距离cat,就相对较远。

不仅如此,我们还可以通过词嵌入向量的数学关系,来描述词语之间的语义关联。

例如,从图中可以看出:

img

向量(“king”)−向量(“man”)≈向量(“queen”)-向量(“woman”)。

总结来说:

词嵌入技术能够有效地将自然语言中的词语,转换为数值向量;

从而表达词语之间的语义关系。

这种技术也为后续更高级的自然语言处理任务,提供了坚实的基础。

2.嵌入矩阵的计算

为了实现词嵌入,我们会通过特定的词嵌入算法;

例如,word2vec、fasttext、Glove等等,训练一个通用的嵌入矩阵。

下图就表示了一个嵌入矩阵:

img

这个嵌入矩阵,就是embedding层。

矩阵中的每一行都代表了一个词向量。

这些词向量,都是连续的浮点数。

一旦训练完成,就可以用在不同的NLP任务中。

具体来说:

嵌入矩阵的行,是语料库中词语的个数。

矩阵的列是表示词语的维度。

例如:

img

上图中的嵌入矩阵,就表示了语料库中包括了5000个单词;

每个单词,都使用一个128维的向量表示;

这个嵌入矩阵是一个5000*128维的矩阵。

下面我们详细说明嵌入矩阵的使用方法。

我们具体使用两种方式来解释:

第1种方式,基于矩阵相乘说明嵌入矩阵。

第2种方式,基于索引的查找说明嵌入矩阵。

首先声明一些关键信息:

设词表中包括5000个单词;

每个词使用一个128维的向量表示。

img

因此嵌入矩阵的大小就是5000*128;

我们将该矩阵记为E。

我们要将句子“Are you OK ?”进行词嵌入。

通过词嵌入,会将句子中的每个词,都表示为一个128维的向量。

例如:

img

图中就表示了“Are you OK ?”4个词的嵌入矩阵;

每一行是一个单词的词向量;

4个词的词向量矩阵,大小是4*128。

第1种解释方式,基于矩阵相乘的进行解释。

将“Are you OK ?”中的每个词,进行One-Hot编码:

img

编码后得到如图中的矩阵。

其中每个词是一个5000维的向量;

整个句子是4*5000的矩阵。

我们将这个矩阵记作V。

将矩阵V和嵌入矩阵E相乘,就会得到一个4*128的矩阵。

计算过程如下:

img

这个4×128的矩阵,就是句子“Are you OK ?”的嵌入向量。

第2种解释方式,基于索引查找的进行解释。

对于“Are you OK ?”中的4个单词,每个单词都对应一个1~5000的整数索引。

这个整数,就是它们的one-hot向量中,不是0的那个维度数。

例如在图中:

img

不为1的位置就对应了单词的索引序号。

也就是“Are you OK ?”的整数索引,分别对应2、1、3和5000。

此时,我们根据2、1、3、和5000;

获取嵌入矩阵的第2行、第1行、第3行与第5000行就可以了。

计算过程如下:

img

最后获取到的四行向量,

就代表“Are”、“you”、“OK”和“?”四个词的词向量。

这相当于词语1就是you;

词语2是are;

词语3是OK;

词语5000是问号。

总结来说:

使用矩阵V和矩阵E相乘得到的词向量矩阵;

与通过索引获取到的词向量矩阵;

它们的结果是完全一样的。

3.Embedding层的使用

最后,我们要讲解如何基于Pytorch,创建词嵌入层。

img

具体会使用torch.nn,创建一个embedding层;

然后使用这个embedding层,计算出单词的词向量;

最后并将词向量其进行可视化。

实验代码如下:

1)首先从torchtext.vocab中导入GloVe词向量

img

简单介绍GloVe词向量,它是斯坦福大学的研究者在2014年开发和发布的。

GloVe和word2vec与fasttext,是当前最常用的3个词向量版本。

这里调用GloVe接口,传入词向量的名字6B与对应维度300。

6B表示了模型是基于60 亿个单词的语料库训练的;

300表示一个单词,使用300维的向量表示。

2)接着使用nn.Embedding创建词嵌入层

img

将glove.vectors,通过from_pretrained接口,导入到Embedding层中。

此时的embedding层,就载入了GloVe词向量数据。

打印embedding层中的weight的尺寸。

可以看到,程序的输出是一个400000×300尺寸的矩阵。

它代表了该词向量层,包含40万个单词,每个单词使用300维来表示。

3)获取单词的索引形式

img

接着,我们要将man、woman、king、queen等8个词语的索引和对应的词向量打印出来。

首先需要将单词word,通过glove的词汇表,转换为单词的索引index。

然后将这些索引index保存到indices数组中。

打印单词word和索引index的对应关系。

观察程序输出,可以看到:

man对应300、woman对应787等等。

4)根据单词的索引获得词向量

得到单词的索引后,将索引列表,使用torch.tensor,转为张量的形式。

img

然后通过embedding层,将索引列表indices转换为,词向量的矩阵vector。

打印vector的尺寸,可以看到vector是一个8×300的矩阵。

8代表8个单词,300代表每个单词是一个300维的向量。

5)通过PCA降维和plt接口,绘制词向量

最后,我们使用PCA降维算法,将向量vectors进行降维。

img

这里使用pca.fit_transform接口,参数n_components设置为2;

将vectors从300维降维到2维。

最后调用plt.scatter和plt.annotate,将单词和向量,绘制到二维平面上。

观察绘制效果:

img

可以看到,cat和dog位置相近;

king和queen相近;

father、mother、man、woman四个词位置相近。

那么到这里,什么是词嵌入,Embedding技术,就讲完了。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么我作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,希望可以帮助到更多学习大模型的人!至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

👉 福利来袭优快云大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈

全套AGI大模型学习大纲+路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉 福利来袭优快云大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈

img

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值