transformer(解码器及之后)

文章介绍了如何在PyTorch中实现数据集生成器,利用Batch工具包处理批次数据,并构建简单的线性变换模型。此外,还讨论了Transformer在构建语言模型中的应用,特别是torch.narrow函数在处理序列数据时的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

生成器类的代码实现:

 知识点1:这里其实就是一个linear再加上一个F.log_softmax()在维度为负一上的变换。目的就是改变向量维度。没什么新奇的内容。

知识点2:import torch.nn.functional


模型基本测试训练模型


第一步:构建数据集生成器

1.导入工具包Batch,它能够对原始样本数据生成对应批次的掩码张量。

from pyitcast.transformer_utils import Batch

2.需要的参数有V,用来给random.randint生成batch大小,10维度的数据集。

第二个参数是batch

即一次传入多少数据量。

第三个参数是num_batch,要进行多少轮才会完成数据,也就是num_batch*batch量就是总数据量。

3.构建tensor,用torch.from_numpy(),生成一到V的矩阵。

4.将第一列作为起始列变成全一,用切片操作。data [:,0] = 1。

5.传成source = variable(data,require_grad=Flase)

targert = Variable(data,require_grad=Flase)这里都要构建一个Variable,来装这些数据。

同时要将参数更新关掉。因为只是一个copy任务。

6.使用yield Batch(source,target)将数据生成器导出,生成的是封装好的迭代器。


使用transformer构建语言模型

知识点1:torch.narrow

1. 类似切片操作,当(0,)表示行上,(1,)表示列上。

2.0是行,1是列。

3.在行上是闭开区间,在列上是闭闭区间。

### Transformer 解码器架构及其工作原理 Transformer解码器部分是一个多层堆叠结构,每一层都由自注意力机制(Self-Attention)、编码器-解码器注意力机制(Encoder-Decoder Attention)以及前馈神经网络组成[^1]。以下是对其具体实现和功能的详细介绍: #### 自注意力机制 在解码过程中,为了预测当前词元的同时不泄露后续的信息,引入了掩码操作(Masked Multi-head Attention)。这种掩码会屏蔽掉未来时间步上的信息,从而确保模型仅基于之前已知的内容生成下一个词元[^2]。 #### 编码器-解码器注意力机制 此模块允许解码器关注来自编码器输出的关键上下文信息。它通过计算查询向量与键向量之间的相似度得分,再乘以对应的值向量完成权重分配过程。这一设计使得解码器能够灵活捕捉源句中的重要特征用于翻译或其他任务[^4]。 #### 前馈神经网络 每层解码器还包括两个线性变换加上ReLU激活函数构成的标准全连接层作为最后一步处理单元。这些密集运算进一步增强了表达能力并促进了不同抽象层次间转换。 另外值得注意的是,在整个transformer框架下还采用了位置编码(Positional Encoding),因为原始输入被映射成了固定维度embedding之后丢失掉了原本存在的顺序关系;因此需要额外加入这类信号以便让模型学习到词语间的相对距离或者绝对位罝等特性[^3]。 下面给出一段简化版Python伪代码展示如何构建单个decoder layer: ```python import torch.nn as nn class DecoderLayer(nn.Module): def __init__(self, d_model=512, num_heads=8, dropout_rate=0.1): super().__init__() self.self_attn = nn.MultiheadAttention(d_model, num_heads, dropout=dropout_rate) self.enc_dec_attn = nn.MultiheadAttention(d_model, num_heads, dropout=dropout_rate) self.ffn = nn.Sequential( nn.Linear(d_model, 2048), nn.ReLU(), nn.Dropout(dropout_rate), nn.Linear(2048, d_model) ) def forward(self, tgt_seq, enc_output, src_mask=None, tgt_mask=None): # Self attention over target sequence out_self_atten, _ = self.self_attn(tgt_seq, tgt_seq, tgt_seq, attn_mask=tgt_mask) # Encoder-decoder attention using encoder output as key/value pair out_encdec_atten, _ = self.enc_dec_attn(out_self_atten, enc_output, enc_output, key_padding_mask=src_mask) # Feed Forward Network ffn_out = self.ffn(out_encdec_atten) return ffn_out ``` 上述代码片段定义了一个标准的解码器层组件,其中包含了必要的子模块实例化逻辑以及数据流传播路径说明[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值