NLP
文章平均质量分 71
乔大将军
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
transformer架构解析{transformer总体架构}(含代码)-1
解码器部分:由N个解码器层堆叠而成,每个编码器层有三个子层:(多头自注意力,规范化层,残差连接)(多头注意力,规范化层,残差连接)(前馈全连接层,规范化层,残差连接)编码器部分:由N个编码器层堆叠而成,每个编码器层有两个子层:(多头自注意力,规范化层,残差连接)(前馈全连接层,规范化层,残差连接)输入:Input Embedding输入的源数据词向量编码,Output Embedding输入的目标数据词向量编码。本节的学习目标是了解transformer模型的作用。原创 2025-03-03 17:37:08 · 341 阅读 · 0 评论 -
transformer架构解析{词嵌入层,位置编码器}(含代码)-2
位置编码器(Positional Encoding)的作用:因为在transformer的编码器结构中并没有针对词汇向量位置信息的处理,因此需要在Embedding层后加入位置编码器,将词汇的位置不同 可能产生不同语义的信息加入到词嵌入张量中,以弥补位置信息的缺失。文本(词向量)嵌入层的作用:将文本词汇(其他数据)的数字表征转变成为向量表示。经过Embedding层将每个数字都转换成为512维的向量。掌握文本(词向量)嵌入层和位置编码器的实现过程。了解文本(词向量)嵌入层和位置编码器的作用。原创 2025-03-03 21:23:44 · 528 阅读 · 0 评论 -
transformer架构解析{掩码,(自)注意力机制,多头(自)注意力机制}(含代码)-3
在之前的小节中我们学习了词嵌入层(词向量编码)以及加入了位置编码的输入层的概念和代码实现的学习。在本小节中我们将学习transformer中最重要的部分-注意力机制张量尺寸不定,里面只有(0,1)元素,代表位置被遮掩或者不遮掩,它的作用就是让另外一张张量中的一些数值被遮掩,被替换,表现形式是一个张量。在图中,我们可以看到,有一组Linear层进行线性变换,变换前后的维度不变,就当是一个方阵的张量,每个张量的值不同,那么变化后的结果也不同,特征就丰富起来了。原创 2025-03-04 17:13:46 · 2726 阅读 · 0 评论 -
transformer架构解析{前馈全连接层,规范化层,子层(残差)连接结构}(含代码)-4
我们之前学习了输入层(词嵌入层(经过词向量编码),位置编码(通过词位置信息向量和词特征矩阵得到))。注意力机制(注意力计算规则,自注意力和注意力区别,注意力机制,多头注意力机制)在transformer中前馈全连接层就是具有两层线性层的全连接网络输入到每个子层以及规范化层的过程中,还使用了残差链接(跳跃链接),我们把这一部分结构叫做子层连接结构(代表子层及其链接结构),在每个编码器层,都有两个子层,这两个子层加上周围的链接结构形成了两个子层链接结构。原创 2025-03-04 20:37:57 · 802 阅读 · 0 评论 -
transformer架构解析{编码器层,编码器}(含代码)-5
在前面一节中,我们学习了前馈全连接层,来弥补注意力机制对于复杂过程的拟合程度不够;规范化层,这是一个深度学习网络的标准层,特征数值经过多层网络,数值会变得很大或很小,影响模型的效果,经过标准化处理,有利于模型收敛;子层连接结构,经过残差连接(跳跃连接)来增强特征。原创 2025-03-05 11:12:06 · 437 阅读 · 0 评论 -
transformer架构解析{解码器层,解码器}(含代码)-6
前面一节中,我们了解了编码器层,编码器的组成以及代码实现。接下来我们学习解码器的知识,解码器和编码器在组成组件部分是大致一样的。原创 2025-03-05 11:37:01 · 490 阅读 · 0 评论 -
transformer架构解析{输出部分}(含代码)-7
前一节我们学习了解码器层的各个组成部分(3个子层结构:多头自注意力机制+规范化层+残差连接;多头注意力机制+规范化层+残差连接;前馈神经网络+规范化层+残差连接),解码器以及它们的实现代码。原创 2025-03-05 16:30:11 · 197 阅读 · 0 评论 -
transformer架构解析{模型构建,模型创建}(含代码)-8
前面一节我们学习了输出部分组成部分(线形层+softmax),以及代码实现,接下来万事俱备,我们可以来构建模型。原创 2025-03-05 16:54:18 · 340 阅读 · 0 评论 -
transformer架构解析{模型基本测试}(含代码)-9
经过前面的学习,我们已经学完了transformer模型的各个组成部分以及实现代码,最后也实现了模型的创建,接下来我们用一个任务来测试一下模型,看它是否能将规律学到。任务描述:针对数字序列进行学习,学习的最终目标是使输出与输入的序列相同,如输入[1,5,8,5,6]输出也是[1,5,8,5,6]任务意义:copy任务在模型基础测试中具有重要意义,因为copy操作对于模型来讲是一条明显的规律,因此模型能否在短时间内,小数据集中学会它,可以帮助我们断定模型的所有过程是否正常,是否已具备基本的学习能力。原创 2025-03-05 18:07:03 · 435 阅读 · 0 评论 -
自然语言处理-词向量模型-Word2Vec
计算机只认识数值数字,那么怎么认识自然语言呢???答案就是将自然语言转换转换成数值,就词向量。先来考虑一个问题,如何能将文本向量化呢???看起来比较抽象,可以先从人的角度来观察。如何来描述一个人呢???只用身高或者体重,还是,综合其各项指标呢??例如:Kevin Durant 身高211cm, 体重90kg,这能完全描述他吗???当然不能,还有NBA超巨,全明星,死神,等等描述。1. 初始化磁向量矩阵。原创 2024-04-08 17:41:54 · 1521 阅读 · 1 评论 -
自然语言处理-BERT处理框架-transformer
BERT:当前主流的解决框架,一站式搞定NLP任务。(解决一个NLP任务时的考虑方法之一)BERT:google开源的框架BERT:自然语言的通用解决框架必备知识:Word2vec,RNN(了解词向量模型,RNN模型如何建模)重点:Transformer网络架构训练方法: BERT训练方法google开源提供预训练模型,直接使用。原创 2024-06-28 11:42:23 · 1423 阅读 · 0 评论
分享