pytorch自动求导,自定义损失函数

本文探讨PyTorch中的动态建图和自动求导原理。通过实例展示了即使在不可求导的变量参与运算下,依然能对可求导变量进行反向传播求导。实验结果显示,只要有一个可求导的叶子节点,框架就能记录其路径并进行反向求导。理解这一机制有助于更好地利用PyTorch进行深度学习模型的训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是动态建图?如何动态建图?动态建图为什么可以反向自动求导?
我对于这个问题一直存在疑惑,但是去网上有没有找到好的解释,于是,没办法,自己实验吧。
首先,我们做如下定义:
a = torch.randn(2)
b = torch.randn(2)
c = torch.randn(2,requires_grad=True)
m = a*b
print(m.grad_fn)
q = a*c
print(q.grad_fn)
我们定义a,b为不可自动求导的,而c是可以自动求导的。按照我们的认知,m.grad_fn为None,那q呢?不可求导乘可以求导结果是什么呢?我们进行了打印,输出如下:
None<MulBackward1 object
PyTorch中,你可以自定义非常复杂的函数,例如深度学习模型中的一个层或者整个网络结构。让我们设计一个简单的卷积神经网络(CNN)层作为例子,这个层包含一个卷积、批量归一化和ReLU激活函数。假设我们有一个4维输入张量(B, C, H, W),其中B代表批次大小,C是通道数,H和W是高度和宽度。 ```python import torch.nn as nn import torch.nn.functional as F class CustomLayer(nn.Module): def __init__(self, in_channels, out_channels, kernel_size, stride=1, padding=0): super(CustomLayer, self).__init__() self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride=stride, padding=padding) self.bn = nn.BatchNorm2d(out_channels) self.relu = nn.ReLU() def forward(self, x): x = self.conv(x) x = self.bn(x) return self.relu(x) ``` 当你想要对该层进行反向传播,可以按照以下步骤: 1. **前向传播**: - 将输入数据`x`传递给`forward`方法。 - 计算经过卷积、批量归一化和ReLU后的输出`out`。 2. **保存中间结果**: - 在`forward`方法中,如果你需要跟踪梯度的源头,可以在关键操作后添加`retain_grad()`,如`y.retain_grad()`,其中`y`是某个中间输出。 3. **定义损失函数**: - 设定损失函数,比如交叉熵 loss,`loss = criterion(out, target)`。 4. **求导**: - 使用`loss.backward()`,这会开始反向传播,PyTorch自动计算所有依赖于`loss`的张量的梯度。 5. **访问梯度**: - 如果你之前在某中间结果上设置了`retain_grad()`,那么可以通过`y.grad`获取对应张量的梯度。例如,如果你想看卷积层的权重更新,可以用`self.conv.weight.grad`.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值