Transformer的输入部分解析

最新推荐文章于 2025-04-18 15:04:13 发布

qq_42007099

最新推荐文章于 2025-04-18 15:04:13 发布

阅读量1.8k

点赞数

文章标签： transformer 深度学习 python

本文链接：https://blog.youkuaiyun.com/qq_42007099/article/details/128040614

版权

Transformer的输入部分进行了解，主要是文本嵌入层的代码分析和位置编码。

1.文本嵌入层的代码分析

#定义Embeddings类来实现文本嵌入层，这里s说明代表两个一模一样的嵌入层，他们共享参数.
class Embeddings(nn.Module):
     #"""类的初始化函数，有两个参数. d _model:指词嵌入的维度, vocab:指词表的大小. """
    def __init__(self, d_model, vocab):   
        
         #接着就是使用super的方式指明继承nn.Module的初始化函数，我们自己实现的所有层都会这样去
        super(Embeddings,self).__init__()

        #调用nn中预定义层Embeddings,获得一个词嵌入对象self.lut
        self.lut = nn.Embedding(vocab, d_model)

        #最后将d_model传入类中
        self.d_model = d_model
        
    """可以将其理解为该层的前向传播逻辑，所有层中都会有此函数当传给该类的实例化对象参数时，自动调用该类函数
    参数x︰因为Embedding层是首层，所以代表输入给模型的文本通过词汇映射后的张量"""
    def forward(self, x):
        
        #将x传给self. lut并与根号下self.d_model相乘作

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_42007099

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

transformer | transformer的输入部分input coding

Fangyechy的博客

01-30

1425

然后统计byte gram，选出出现次数最多的byte gram，将其塞入到词表中，若组成的byte gram使得原本单独的部分无其他非组成该byte gram的情况，则该部分需要从原先的词表进行删除。然后向量是具有空间的，通过和积化差可以得到这个向量是由于某些向量线性组合而成，而线性组合也有对应的空间表示，从而通过线性组合区分位置关系。（位置信息是很重要的，词的意思可通过上下文进一步明确，上文放在下文，可能就有不同的意思存在）pos是指位置，比如说“我爱你”中的“爱”的位置为第二。

Transformer模型全面解析：工作原理、应用与未来展望*

洛阳泰山的博客

07-28

760

Transformer模型起源于2017年，由Google团队在《Attention is All You Need》一文中首次提出。该模型以全新的自注意力机制为核心，彻底颠覆了传统RNN、LSTM等序列模型的设计理念。通过并行计算和全局信息交互，Transformer在处理长序列和复杂依赖关系时展现出显著优势。

参与评论您还未登录，请先登录后发表或查看评论

一文彻底搞懂Transformer的输入（附代码）

2402_82802238的博客

03-27

3664

本系列文章致力于用最简单的语言讲解Transformer架构，帮助朋友们理解它的强大，本文是第五篇：Transformer输入详解。

一文彻底搞懂Transformer - Input（输入）

u012374012的专栏

07-03

1494

位置编码的维度与嵌入向量的维度相同，可以将它们直接相加到嵌入向量上。：将添加了位置编码的嵌入向量作为输入传递给Transformer模型的编码器部分。：词嵌入是最基本的嵌入形式，它将词汇表中的每个单词映射到一个固定大小的向量上。假设词汇表大小为12288，嵌入向量的维度为128，则嵌入层会将输入文本中的每个单词映射到一个128维的向量上。在Transformer中，词嵌入层通常是一个可学习的参数矩阵，其中每一行对应词汇表中的一个单词的嵌入向量。：为每个嵌入向量添加位置编码，以提供单词在序列中的位置信息。

transformer-词嵌入和位置嵌入详解

最新发布

qq_45893319的博客

04-18

669

答：一句话概括，Positional Encoding就是句子中词语相对位置的编码，让Transformer保留词语的位置信息。Attention 对位置不敏感的原因，因此其无法捕捉到输入序列中 token 的位置信息。一种可行的办法就是在输入的时候加入每个 token 的位置信息。首先，在任何一门语言中，词语的位置和顺序对句子意思表达都是至关重要的。传统的RNN模型在处理句子时，以序列的模式逐个处理句子中的词语，这使得词语的顺序信息在处理过程中被天然的保存下来了，并不需要额外的处理。

Transformer--输入部分

njhniubi的博客

07-27

583

输入部分主要包括源文本嵌入层以及位置编码器，目标文本嵌入层以及位置编码器。

Transformer输入部分实现

APPLECHARLOTTE的博客

10-08

499

Transformer模型的输入部分实现

Vision Transformer 全面代码解析

强化学习曾小健

08-20

1054

注意力机制允许模型在处理输入序列时，关注到最重要的部分，而多头自注意力则通过多个独立的注意力头来同时关注不同的特征子空间，提高了模型的表达能力。虽然我们已经完成了VisionTransformer的所有代码分析和搭建过程，但为了让模型更加易于使用和调用，我们还需要对其进行进一步的封装。在完成了所有必要模块的创建之后，我们现在要做的就是将它们组合起来，构建我们的VisionTransformer模型。在这些阶段，模型的输出是基于所有路径的贡献，而不是被随机“丢弃”了一些路径的情况。，以提高模型的泛化能力。

全面解析 Transformer：改变深度学习格局的神经网络架构

qq_56683019的博客

12-04

9647

Transformer 是一种基于"注意力机制（Attention Mechanism）"的神经网络架构，主要用于处理序列数据。与传统的循环神经网络（RNN）不同，Transformer 通过并行计算和全局注意力机制，极大提升了模型的效率和性能。Transformer 的设计理念基于简单但高效的注意力机制，其并行化特性和强大的表征能力使其成为现代深度学习的核心模型。从 NLP 到 CV，再到多模态任务，Transformer 正在推动 AI 的新一轮变革。

深入解析Transformer原理

码上飞扬的博客

09-17

2380

自注意力机制是Transformer架构的核心组件，通过计算每个词与其他词的相关性，生成加权的上下文表示。这一机制不仅提升了模型的表达能力，还大大增强了捕捉长程依赖的能力。多头自注意力机制进一步提升了模型的性能，使其能够从不同的角度理解输入序列。理解自注意力机制的工作原理，是深入掌握Transformer架构的关键。Transformer架构的提出为自然语言处理带来了革命性的变化。通过自注意力机制和并行计算，Transformer不仅提升了模型的性能，也极大地拓宽了NLP的应用场景。

Transformer

m0_49534117的博客

10-22

2935

Swin是2021年微软研究院发表在ICCV上的一篇文章，并且已经获得的荣誉称号。在Swin Transformer中使用了Windows Multi-Head Self-Attention(W-MSA)的概念，比如在下图的4倍下采样和8倍下采样中，将特征图划分成了多个不相交的区域（Window），并且Multi-Head Self-Attention只在每个窗口（Window）内进行。

Transformer输入部分结构原理分析

云计算、数据库、大数据、容器、微服务、深度学习、NLP、Python

04-22

736

Transformer网络架构输入部分源：源文本嵌入层及其位置编码器目标：目标文本嵌入层及其位置编码器文本嵌入层的作用：目的是将文本word2id的数字转变为以向量的方式表示位置编码器的作用：文本切入层位置编码器代码实现 import torch import torch.nn as nn from torch.autograd import Variable import math...

【Transformer】什么是transformer? transformer输入输出是什么。transformer用于GPT的方法。tranformer的代码。chat-gpt

高山

04-18

2450

在自然语言处理领域，chat-GPT为这几年最让人感觉到强大的自然语言模型。GPT基于Transformer，Transformer又是基于attention机制。这次咱们从Encoder-Decoder->Attention->Transformer逐步讲解，一步一步深入。Encoder-Decoder框架顾名思义也就是编码-解码框架，目前大部分attention模型都是依附于Encoder-Decoder框架进行实现，在NLP中Encoder-Decoder框架主要被用来处理序列-序列问题。

Transformer（认真）

qq_61094172的博客

11-22

3112

看不懂，好难啊！！！详情请参考 https://andyguo.blog.youkuaiyun.com/article/details/119753719 一、RNN和Transformer的不同二、从整体宏观来理解 Transformer 三、从细节来理解 Transformer 3.1 Transformer 的输入 3.2Encoder(编码器) 3.3 Self-Attention 整体理解四、Self-Attention 的细节 4.1 计算Query 向量，Key 向.

transformer

Claire的博客

11-26

918

文本嵌入层的作用无论是源文本嵌入还是目标文本嵌入，都是为了将文本词汇的数字表示转变为向量表示，希望在这样的高维空间捕捉词汇间的关系。

理清Transformer输入输出

m0_55034547的博客

11-27

5281

理清Transformer输入输出

transformer的输入到输出（维度以及矩阵计算）

NLPnoproble的博客

07-05

1万+

维度变化：q*k.T=（3，5）*（5，3）=（3，3）（/^dk和softmax矩阵维度不变）维度变化：q*k.T=（3，5）*（5，3）=（3，3）（/^dk和softmax矩阵维度不变）z=(3,5*4)=(3,20) 注意力机制到这里就结束了（z为提取的向量特征）之后乘v=（3，3）*（3，5）=（3，5）(由于为4头注意力机制所以5乘4)之后乘v=（3，3）*（3，5）=（3，5）(由于为4头注意力机制所以5乘4)y=(3,5)的一个矩阵（包含了位置向量和单词向量）

【手撕Transformer】Transformer输入输出细节以及代码实现（pytorch）