detach()与detach_()

本文探讨了梯度累加技术在神经网络训练中的应用,通过detach操作防止梯度反向传播,减少内存消耗,同时解释了为何不直接求和多batch损失的原因。关键概念包括参数延迟更新、大batch效应和内存优化策略。

作用:切断梯度的反向传播

用处:(1)保存一部分网络参数不变,只对网络一部分参数进行调整;

(2)只训练网络部分分支,其分支梯度不影响backbone

区别:detach_对本身更改,detach生成一个新的tensor。

假设一开始的变量关系为:x ->m -> y,那么这里的叶子结点就是x,当这个时候对m进行了m.detach_()操作,首先会取消m与前一个结点x的关联,并且grad_fnNone。此时,这里的关系就会变成xm ->y,这个时候m就变成了叶子结点。然后再将mrequires_grad属性设置为False,当我们对y进行backward()时就不会求m的梯度。

for i, (images, target) in enumerate(train_loader):
    images = images.cuda(non_blocking=True)
    target = torch.from_numpy(np.array(target)).float().cuda(non_blocking=True)
    outputs = model(images)
    loss = criterion(outputs, target)
    loss = loss / accumulation_steps   

    loss.backward()

    if (i + 1) % accumulation_steps == 0:
        optimizer.step()       
        optimizer.zero_grad()



首先进行正向传播,将数据传入网络进行推理,得到结果
将预测结果与label输入进损失函数中计算损失
进行反向传播,计算梯度
重复前面的步骤,先不清空梯度,而是先将梯度进行累加,当梯度累加达到固定次数之后就更新网络参数,然后将梯度置零
梯度累加就是每次获取1个batch的数据,计算1次梯度,但是先不进行清零,而是做梯度的累加,不断地进行累加,当累加到一定的次数之后,再更新网络参数,然后将梯度清零,进行下一个循环。

通过这种参数延迟更新的手段,可以实现与采用大batch size相近的效果。在平时的实验过程中,我一般会采用梯度累加技术,大多数情况下,采用梯度累加训练的模型效果,要比采用小batch size训练的模型效果要好很多。

一定条件下,batch size越大训练效果越好,梯度累加则实现了batch size的变相扩大,如果accumulation_steps为8,则batch size就变相扩大了8倍,使用时需要注意,学习率也要适当放大:因为使用的样本增多,梯度更加稳定了。

有人会问,在上面的代码中为什么不直接对多个batch的loss先求和然后再取平均、再进行梯度回传和更新呢?

按我的理解这是为了减小内存的消耗。当采用多个batch的loss求和平再均后再回传的方式时,我们会进行accumulation_steps 次batch的前向计算,而前向计算后都会生成一个计算图。也就是说,在这种方式下,会生成accumulation_steps个计算图再进行backward计算。

而采用上述代码的方式时,当每次的batch前向计算结束后,就会进行backward的计算,计算结束后也就释放了计算图。又因为这两者计算过程的梯度都是累加的,所以计算结果都是相同的,但是上述的方法在每一时刻中,最多只会生成一张计算图,所以也就减小了计算中的内存消耗。

### PyTorch `detach` `detach_` 的用法及区别 #### 1. **`detach()` 方法** `detach()` 是一种非原地操作 (out-of-place operation),它会返回一个新的张量,该张量原始张量共享相同的底层数据存储,但新张量再属于原有的计算图的一部分[^3]。这意味着新的张量会记录任何对其的操作,也会参到梯度计算中。 以下是 `detach()` 的主要特点: - 会影响原始张量的计算图。 - 新张量的 `requires_grad` 属性始终为 `False`,无论原始张量是否有梯度需求。 - 如果需要修改分离后的张量的数据影响原始张量的梯度流,则应使用此方法。 示例代码如下: ```python import torch x = torch.tensor([2.0, 3.0], requires_grad=True) y = x * 3 z = y.detach() # 创建了一个脱离计算图的新张量 z print("z requires_grad:", z.requires_grad) # 输出 False ``` --- #### 2. **`detach_()` 方法** `detach_()` 则是一种原地操作 (in-place operation)[^4],它会在原有张量的基础上直接将其从计算图中移除,并将自身的 `requires_grad` 属性设置为 `False`。由于它是原地操作,因此会对调用它的张量本身造成永久性的更改——即将其从计算图中完全剥离。 需要注意的是,一旦执行了 `detach_()`,原本指向同一块内存区域的所有变量都会受到影响,它们都将失去对原来计算图的连接关系。 具体表现可以通过下面的例子来说明: ```python import torch x = torch.tensor([2.0, 3.0], requires_grad=True) y = x * 3 y.detach_() # 将 y 自身从计算图中移除 print("y after detach_: ", y.requires_grad) # 输出 False try: y.sum().backward() except RuntimeError as e: print(e) # 报错提示:element 0 of tensors does not require grad and does not have a grad_fn ``` 在这里可以看到,在应用 `detach_()` 后再尝试进行反向传播时会发生错误,因为此时已经没有任何路径能够追溯回输入端以完成链式法则所需的导数累积过程。 --- #### 3. **两者的主要差异总结** | 特性 | `detach()` | `detach_()` | |-------------------------|-------------------------------------|-----------------------------------| | 是否改变原对象 | 否 | 是 | | 返回值 | 新的对象 | None | | 计算图状态 | 复制一份独立于现有计算图之外的新实例 | 当前对象被标记为需要跟踪历史 | | 性能考虑 | 更安全(无副作用),适合复杂场景 | 效率更高但在简单调整中有风险 | 当决定采用哪种方式取决于实际应用场景以及个人偏好等因素综合考量之后才能做出最佳选择。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值