研究人工智能的人应该都知道Transformer,Transformer可以说是人工智能的基石,无论是自然语言处理经典模型Bert,还是现在火的一塌糊涂的GPT,他们的核心正是Transformer,说实话,虽然研究方向是深度学习,但是我对Transformer一直没有透彻的理解,所以这次痛定思痛,决定一定要把Transformer搞明白。但是网上大部分的材料要么草草讲一下Transformer架构,要么讲的过于理论,所以我想把我自己学习的、理解的记录下来,和大家一起学习,正好作为我的一个新的系列。
本文章是该系列的第一篇文章,我们来看一下Transformer的整体架构,数据怎么流通以及各个模块起到了什么作用。
Transformer是2017年Google提出的模型架构,最开始论文中的任务是翻译任务,之后扩展到文本预测、图像、语音等各个研究领域。

1.tokenize
首先,输入序列会被分解为一堆小片段,这些片段被称为token,在文本中,他们通常是单词、单词的小片段或者其他的组合,如果涉及图像或者声音,那么token可以是图像的小块或者声音的片段。

每个token都会被编码成一个embbedding向量,对于embedding可以参考我之前的文章RAG-embedding篇,这些向量是在高维空间下的坐标,具有相似含义的单词往往会落在这个空间中靠近的向量上,这些步骤是在数据进入Transformer中之前的预处理步骤。
2.Position Embedding
在我们得到embedding之后,每个向量只包含了每个token的含义,但是没有考虑到词向量的顺序,也就会丢失原来文本的顺序信息。为了保留原始输入的顺序关系,我们需要加入位置编码,Transformer原文中位置编码的计算方式如下:

其中pos为位置序号,dmodel为特征的维度,i表示特征的第i维。
Transformer有编码器和解码器两个部分,编码器的输入是固定一次性的,而解码器输入是自回归累加的。他们之间的区别是Decoder可以选择masking,并且Decoder中的注意力是交叉注意力机制,将Encoder的输入作为Key和Value,其余部分都相同。但是他们的核心都是Attention,一个叫注意力机制的东西。
3.Encoder
Encoder的作用是处理输入的向量,目标是得到不仅包含原输入单词的embedding,并且希望将和原输入单词相关性高的单词的信息融合。
实现融合信息的核心就是注意力(Attention)模块,在这里他们相互通信根据上下文进行更新,例如,“我爱你”中的爱和“i love you”里面的love相关性很高,注意力模块负责弄清楚上下文中哪些单词的含义之间的相关性更高,以及这些单词的含义应该如何更新。Attention模块的具体讲解后面会单独出一期。
在注意力模块之后,这些向量通过多层感知机或者前馈网络,增强网络的非线性表达能力,这里向量彼此之间不进行通信,他们并行执行相同的操作,这也是Transformer能够很好的并行训练的原因。从计算上讲,两个块中所有运算都是矩阵乘法。前馈神经网络的具体讲解同样也会单独出一期。
4.Decoder
Decoder中的模块和Encoder中的模块类似,都是注意力模块和前馈神经网络以及融合归一化层。不同的是,Decoder是自回归,多了mask机制和交叉注意力机制。
Decoder每一次预测得到一个词,预测下一个单词所需要的信息都需要编码到序列的最后一个向量中,这个向量再经过一次运算产生下一个可能出现的文本的概率分布。预测出来的这个词和Decoder原始输入合在一起再次输入到Decoder,这也就是所谓的自回归。重复这个过程不断生成直至完毕。
以上就是Transformer整体的结构。
5.如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

深入解析Transformer架构
1581

被折叠的 条评论
为什么被折叠?



