detach（）与detach_（）

最新推荐文章于 2023-07-28 21:28:24 发布

转载最新推荐文章于 2023-07-28 21:28:24 发布 · 600 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s/JHtsWkWQYdleXjTs6nMBiQ

文章标签：

#深度学习 #人工智能 #神经网络

pytorch学习专栏收录该内容

7 篇文章

订阅专栏

本文探讨了梯度累加技术在神经网络训练中的应用，通过detach操作防止梯度反向传播，减少内存消耗，同时解释了为何不直接求和多batch损失的原因。关键概念包括参数延迟更新、大batch效应和内存优化策略。

作用：切断梯度的反向传播

用处：（1）保存一部分网络参数不变，只对网络一部分参数进行调整；

（2）只训练网络部分分支，其分支梯度不影响backbone

区别：detach_对本身更改，detach生成一个新的tensor。

假设一开始的变量关系为：x ->m -> y，那么这里的叶子结点就是x，当这个时候对m进行了m.detach_()操作，首先会取消m与前一个结点x的关联，并且grad_fn为None。此时，这里的关系就会变成x，m ->y，这个时候m就变成了叶子结点。然后再将m的requires_grad属性设置为False，当我们对y进行backward()时就不会求m的梯度。

for i, (images, target) in enumerate(train_loader):
    images = images.cuda(non_blocking=True)
    target = torch.from_numpy(np.array(target)).float().cuda(non_blocking=True)
    outputs = model(images)
    loss = criterion(outputs, target)
    loss = loss / accumulation_steps   

    loss.backward()

    if (i + 1) % accumulation_steps == 0:
        optimizer.step()       
        optimizer.zero_grad()



首先进行正向传播，将数据传入网络进行推理，得到结果
将预测结果与label输入进损失函数中计算损失
进行反向传播，计算梯度
重复前面的步骤，先不清空梯度，而是先将梯度进行累加，当梯度累加达到固定次数之后就更新网络参数，然后将梯度置零
梯度累加就是每次获取1个batch的数据，计算1次梯度，但是先不进行清零，而是做梯度的累加，不断地进行累加，当累加到一定的次数之后，再更新网络参数，然后将梯度清零，进行下一个循环。

通过这种参数延迟更新的手段，可以实现与采用大batch size相近的效果。在平时的实验过程中，我一般会采用梯度累加技术，大多数情况下，采用梯度累加训练的模型效果，要比采用小batch size训练的模型效果要好很多。

一定条件下，batch size越大训练效果越好，梯度累加则实现了batch size的变相扩大，如果accumulation_steps为8，则batch size就变相扩大了8倍，使用时需要注意，学习率也要适当放大：因为使用的样本增多，梯度更加稳定了。

有人会问，在上面的代码中为什么不直接对多个batch的loss先求和然后再取平均、再进行梯度回传和更新呢？

按我的理解这是为了减小内存的消耗。当采用多个batch的loss求和平再均后再回传的方式时，我们会进行accumulation_steps 次batch的前向计算，而前向计算后都会生成一个计算图。也就是说，在这种方式下，会生成accumulation_steps个计算图再进行backward计算。

而采用上述代码的方式时，当每次的batch前向计算结束后，就会进行backward的计算，计算结束后也就释放了计算图。又因为这两者计算过程的梯度都是累加的，所以计算结果都是相同的，但是上述的方法在每一时刻中，最多只会生成一张计算图，所以也就减小了计算中的内存消耗。