Pytorch 中的 forward理解

前言

我们在使用Pytorch的时候,模型训练时,不需要调用forward这个函数,只需要在实例化一个对象中传入对应的参数就可以自动调用 forward 函数。

class Module(nn.Module):
    def __init__(self):
        super().__init__()
        # ......

    def forward(self, x):
        # ......
        return x


data = ......  # 输入数据

# 实例化一个对象
model = Module()

# 前向传播
model(data)

# 而不是使用下面的
# model.forward(data)  

但是实际上model(data)是等价于model.forward(data),这是为什么呢???下面我们来分析一下原因。

forward函数

model(data)之所以等价于model.forward(data),就是因为在类(class)中使用了__call__函数,对__call__函数不懂得可以点击链接:可调用:__call__函数

class Student:
    def __call__(self):
        print('I can be called like a function')


a = Student()
a()

输出结果:

I can be called like a function

由上面的__call__函数可知,我们可以将forward函数放到__call__函数中进行调用:

class Student:
    def __call__(self, param):
        print('I can called like a function')
        print('传入参数的类型是:{}   值为: {}'.format(type(param), param))

        res = self.forward(param)
        return res

    def forward(self, input_):
        print('forward 函数被调用了')

        print('in  forward, 传入参数类型是:{}  值为: {}'.format(type(input_), input_))
        return input_


a = Student()

input_param = a('data')
print("对象a传入的参数是:", input_param)

输出结果:

I can called like a function
传入参数的类型是:<class 'str'>   值为: data
forward 函数被调用了
in  forward, 传入参数类型是:<class 'str'>  值为: data
对象a传入的参数是: data

到这里我们就可以明白了为什么model(data)等价于model.forward(data),是因为__call__函数中调用了forward函数。

### PyTorch 中 Transformer 的使用与实现 #### 变压器简介 近年来,Transformer 模型在自然语言处理 (NLP) 领域取得了显著成就。无论是谷歌的 BERT 还是 OpenAI 的 GPT 系列,这些基于 Transformer 架构的模型均展示了卓越的能力[^1]。 #### 基于 PyTorch 实现变压器的关键要素 为了更好地理解和应用这一强大工具,在 PyTorch 上构建一个简易版 Transformer 是非常有益的做法。下面是一些重要的概念和技术要点: - **自注意力机制(Self-Attention Mechanism)** 这是整个论文中最核心的概念之一。通过计算输入序列中不同位置之间的关系权重来自适应地聚焦重要信息[^3]。 - **编码器层(Encoder Layer)** 每个编码器由多头自注意单元和全连接前馈网络组成;两者之间以及之后都有残差链接和标准化操作以促进训练过程中的梯度传播。 - **解码器层(Decoder Layer)** 除了具有似的结构外还包括了一个额外的掩蔽多头关注子层用于防止当前位置看到未来的信息违反因果顺序原则。 以下是简化后的 Python 代码片段展示如何利用 PyTorch 库创建基本组件: ```python import torch.nn as nn from torch import Tensor class MultiHeadedAttention(nn.Module): def __init__(self, h: int, d_model: int, dropout=0.1): super().__init__() assert d_model % h == 0 self.d_k = d_model // h self.h = h self.linears = clones(nn.Linear(d_model, d_model), 4) self.attn = None self.dropout = nn.Dropout(p=dropout) def forward(self, query: Tensor, key: Tensor, value: Tensor, mask=None): ... ``` 上述 `MultiHeadedAttention` 定义了多头注意力功能的具体逻辑[^2]。 #### 完整项目资源获取方式 对于希望深入了解并实践的朋友来说,可以访问 GitHub 获取完整的源文件和其他辅助材料。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值