汇总 | Pytorch遇到的坑汇总

在进行混合精度训练时遇到输出为NaN的情况,通常由于极大梯度引起,这可能与Sigmoid等函数有关。解决策略包括找到导致问题的loss或layer,替换为更稳定的选项。文章提供了进一步的信息链接以帮助诊断和解决问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 训练时出现NaN

  • 使用混合精度训练时出现了NaN
  • 网络输入:无问题;
  • 网络输出:Nan
  • 问题分析:出现了极大的梯度,导致网络权重NaN
    • 这通常由Sigmoid等函数导致
  • 解决方法
    • 找到导致无穷的loss或者layer
    • 将其替换为不容易出现问题的loss / layer

更多信息:https://zhuanlan.zhihu.com/p/443166496

未完待续

<think>嗯,用户想找PyTorch的语法总结或者教程汇总。首先,我需要看看用户提供的引用内容,里面有关于PyTorch的一些基础知识点,比如继承nn.Module、张量操作、点操作符的使用,还有设备迁移的问题。用户可能希望有一个系统的语法大全,方便查阅。 用户的问题比较广泛,可能需要分模块整理。比如模型构建、张量操作、自动求导、设备管理、损失函数和优化器,还有训练流程。每个部分都需要涵盖常见语法和示例,这样用户能快速找到需要的内容。 然后,根据用户提供的引用,比如引用[1]讲的是模型类的继承,引用[2]和[4]涉及张量运算,引用[3]提到点操作符和函数调用,引用[5]关于设备迁移。这些内容应该分别归类到对应的模块里。 另外,用户可能需要相关的问题来进一步学习。比如模型构建的常见错误,张量乘法区别,自动求导的应用,多GPU训练的实现,以及训练循环的关键步骤。这些问题可以帮助用户深入理解各个部分。 还要注意引用格式,每个引用标识要正确对应到用户提供的参考内容。例如,引用[^1]对应模型类,引用[^2]和[^4]对应张量操作,引用[^3]和[^5]对应设备管理部分。 最后,确保回答结构清晰,分点明确,代码示例正确,并且相关问题的生成能覆盖用户可能遇到的疑问。这样用户就能有一个全面的PyTorch语法参考,满足他们的需求。</think>### PyTorch 语法核心要点汇总 根据您提供的引用内容,我整理了以下PyTorch语法重点模块: #### 一、模型构建基础 1. **神经网络类定义** 所有神经网络必须继承$nn.Module$类,需实现构造函数`__init__`和前向传播`forward`方法[^1] ```python import torch.nn as nn class MyModel(nn.Module): def __init__(self): super().__init__() self.conv = nn.Conv2d(3, 64, kernel_size=3) def forward(self, x): return self.conv(x) ``` 2. **参数访问** 通过`model.parameters()`获取可训练参数[^3] ```python for param in model.parameters(): print(param.shape) ``` #### 二、张量运算语法 1. **基础运算类型** - 点积:`torch.dot()`(仅限一维向量)[^2] - 矩阵乘法:`torch.matmul()`或`@`运算符[^2] - 高维张量运算: $$ \text{当} A.shape=(m,n), B.shape=(b,n,k) \text{时}, matmul(A,B).shape=(b,m,k) $$[^4] 2. **广播机制示例** ```python a = torch.ones(2,3) b = torch.ones(3,4) c = a @ b # 结果形状(2,4) ``` #### 三、自动求导系统 1. **梯度追踪** 使用`requires_grad=True`启用自动微分 ```python x = torch.tensor([1.0], requires_grad=True) y = x**2 y.backward() print(x.grad) # 输出2.0 ``` #### 四、设备管理语法 1. **多设备支持** 推荐使用`.to(device)`代替`.cuda()` ```python device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") model = model.to(device) data = data.to(device) ``` #### 五、损失函数与优化器 1. **标准配置模式** ```python criterion = nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.001) ``` #### 六、训练流程模板 ```python for epoch in range(epochs): optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() ``` §§ 相关问题 §§ 1. 如何在自定义层中正确实现反向传播? 2. `torch.mm()`与`torch.matmul()`的区别是什么? 3. 多GPU训练时如何正确分配设备? 4. 为什么梯度需要手动清零(`zero_grad()`)? 5. 训练循环中常见的流程控制要点有哪些? [^1]: 模型类继承规范 : 张量运算基础 : 方法调用语法 : 高维张量乘法规则 : 多设备支持实现
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不再更新,请勿购买!!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值