pytorch tensor clone, detach 之后梯度的变化

最新推荐文章于 2023-02-27 16:10:04 发布

转载最新推荐文章于 2023-02-27 16:10:04 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/winycg/article/details/100813519

文章标签：

#python

pytorch 专栏收录该内容

11 篇文章

订阅专栏

本文深入探讨了PyTorch中clone()与detach()函数的区别与应用场景。clone()函数用于创建一个与原张量完全相同但独立存在于计算图中的新张量，而detach()则用于生成一个与原张量共享内存但脱离计算图的新张量，避免了梯度计算。

部署运行你感兴趣的模型镜像

clone

clone()函数可以返回一个完全相同的tensor,新的tensor开辟新的内存，但是仍然留在计算图中。

detach

detach()函数可以返回一个完全相同的tensor,新的tensor开辟与旧的tensor共享内存，新的tensor会脱离计算图，不会牵扯梯度计算。

非常推荐大家阅读这篇博客：https://blog.youkuaiyun.com/winycg/article/details/100813519

您可能感兴趣的与本文相关的镜像

PyTorch 2.7

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

布丁的自我修养

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【pytorch】tensor的复制避坑；tensor.clone() & tensor.detach() 详解

一起来学深度学习鸭的博客

10-27

2021

我原以为 b = a.data 就是开辟一个新空间给 b变量，然后修改 b 的值时 a 的值不会因此变化，谁知道即使用了.data属性，修改 b 的值后 a 的值依然会发生变化。后来上网查找，发现无论是用 b = a，还是 b = a.data，变量a和b的关系都没有断开，下面介绍两种函数，请注意区分！

【Pytorch】对比clone、detach以及copy_等张量复制操作

热门推荐

guofei_fly的博客

02-24

3万+

pytorch提供了clone、detach、copy_和new_tensor等多种张量的复制操作，尤其前两者在深度学习的网络架构中经常被使用，本文旨在对比这些操作的差别。 1. clone 返回一个和源张量同shape、dtype和device的张量，与源张量不共享数据内存，但提供梯度的回溯。下面，通过例子来详细说明：示例：（1）定义 import torch a = torch.ten...

参与评论您还未登录，请先登录后发表或查看评论

pytorch中关于detach clone 梯度等一些理解

一往而深深深深

10-13

4268

pytorch中有时需要复制一下张量（tensor），如果实在迭代过程中就会涉及到梯度的问题。我了解的常用的tensor复制方式有两种 .detach（）和.clone（） 1、.detach（）方法，比如已有tensor a ，b=a.detach（），则相当于给a起了个别名b，两个在内存中实际是一个东西，但是在计算梯度时，梯度从后面传到b不会再往前传了，到这就截止了。当只需要tensor数值，不需要往前的梯度或者故意将梯度在这儿截断时可以用这个方法。 2、.clone（）方法，与上面正相反，如.

pytorch tensor切片操作影响模型的梯度下降

qq_26130991的博客

12-17

1272

先说torch版本： torch 1.10.0 pypi_0 pypi torchaudio 0.10.0 py39_cu113 pytorch torchmetrics 0.6.2 pypi_0 pypi torchvision 0.11.1

pytorch里面的detach()和clone()内存问题

qq_40178291的博客

09-22

5021

pytorch里面的detach()和clone()内存是不同的，detach是不内存共享的，而clone()是内存共享的。代码如下： >>> import torch >>> a=torch.randn(2,4) >>> b=torch.randn(2,4) >>> a tensor([[-0.1926, 1.8904,...

pytorch 中一个变量被detach()后，这个变量生成的其他变量还存在梯度的验证

weixin_61445075的博客

01-07

1641

pytorch 中一个变量被detach()后，这个变量生成的其他变量还存在梯度的验证

pytorch的两个函数 .detach() .detach_() 的作用和区别

qq_38156104的博客

09-21

980

当我们再训练网络的时候可能希望保持一部分的网络参数不变，只对其中一部分的参数进行调整；或者训练部分分支网络，并不让其梯度对主网络的梯度造成影响，这时候就需要使用detach()函数来切断一些分支的反向传播一、tensor.detach() 返回一个新的tensor，从当前计算图中分离下来的，但是仍指向原变量的存放位置,不同之处只是requires_grad为false，得到的这个tensor永远不需要计算其梯度，不具有grad。即使之后重新将它的requires_grad置为true,它也不会.

pytorch中copy_()、detach()、data()和clone()操作区别小结

非晚非晚的博客

06-20

3639

clone创建一个tensor与源tensor有相同的shape，dtype和device，不共享内存地址，但新tensor(b)的梯度会叠加在源tensor(a)上。需要注意的是，b = a.clone()之后，b并非叶子节点，所以不可以访问它的梯度。detach()函数返回与调用对象tensor相关的一个tensor，此新tensor与源tensor共享数据内存（那么tensor的数据必然是相同的），但其requires_grad为False，并且不包含源tensor的计算图信息。...

pytorch中clone()、copy_()、detach()等函数辨析

qq_37497304的博客

08-30

1414

pytorch中clone()、copy_()、detach()等函数辨析

Pytorch学习笔记——tensor的各类操作及求梯度

qq_44992157的博客

10-19

2348

动手学pytorch第二章的内容笔记

pytorch-自动求导机制，构建计算图进行反向传播，需要注意inplace操作导致的报错，梯度属性变化

白水空空

02-27

1382

假设我们有一个复杂的神经网络模型，我们把它想象成一个错综复杂的管道结构，不同的管道之间通过节点连接起来，我们有一个注水口，一个出水口。比如有的时候在一个变量已经参与了正向传播的计算，之后它的值被修改了，在做反向传播的时候如果还需要这个变量的值的话，我们肯定不能用那个后来修改的值吧，但没修改之前的原始值已经被释放掉了，我们怎么办？但这句话反过来说就是，因为只要有 inplace 操作不当就会报错，所以如果我们在程序中使用了 inplace 操作却没报错，那么说明我们最后求导的结果是正确的，没问题的。

Pytorch clone() detach()

weixin_41914570的博客

10-27

1129

1.clone()主要用于模块复用数据进行复制，不共享同一内存，梯度可以回溯 c=torch.tensor(1.0,requires_grad=True) b=c*2 d=b**2 （**） b_=b.clone() e_=b_**3 e_.backward(retain_graph=True) """ b.zero_() 这里的b是d.backward()的回溯节点（**），在回溯前不能进行in place 操作, 目的保证梯度计算正确，但如果是b_.zero_()就不会报错，因为c..

pytorch中的.clone() 和 .detach()复制变量、共享内存变量

爱在深秋

08-31

1万+

使用torch.clone()获得的新tensor和原来的数据不再共享内存，但仍保留在计算图中，clone操作在不共享数据内存的同时支持梯度梯度传递与叠加，所以常用在神经网络中某个单元需要重复使用的场景下。需要注意的是view返回的Tensor与源Tensor是共享data的，但是依然是一个新的Tensor（因为Tensor除了包含data外还有一些其他属性），两者id（内存地址）并不一致。detach()函数可以返回一个完全相同的tensor,与旧的tensor共享内存，脱离计算图，不会牵扯梯度计算。..

PyTorch Tensor类：clone和detach的用法

zzxxxaa1的博客

11-05

1961

本来是准备分析一下Tensor类的源码的，但是看了看发现这个类的源码实现基本都是在C++上，目前精力有限，所以就算了。现在打算分析一下Tensor中可能比较难用的方法，比如clone,detach。这些方法之所以难用主要还是因为Tensor支持自动微分，也就是说每个Tensor不止能表示这个Tensor对应的值，还可以表示以这个Tensor为根结点的前向计算图。 Clone方法我们先看Pytorch的官方文档torch.clone — PyTorch 1.10.0 documentation

pytorch个人笔记: Tensor.detach()

m0_47746932的博客

08-11

9404

tensor.detach(): 从计算图中脱离出来，返回一个新的tensor，新的tensor和原tensor共享数据内存，但是不涉及梯度计算。在从tensor转换成为numpy的时候，如果转换前面的tensor在计算图里面（requires_grad = True），那么这个时候只能先进行detach操作才能转换成为numpy x = torch.zeros([3, 4], requires_grad = True) x y = x.numpy() print(y) '''输出：（报错了） ----

Pytorch训练笔记（更新中）

weixin_42641207的博客

10-11

760

1.配置环境时可以利用配置文件，采用命令：pip install -r requirement.txt 2.在transform操作中常常会出现transform.ToTensor以及transform.Normalize操作 transform.ToTensor(), transform.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5)) ToTensor操作会把一张图片的值从0-255转换成0-1的小数，并把数据转化成Tensor格式。目的是0-1的像素值在训练的过程中

深度学习：非标量调用backward()求梯度实现原理、detach()

qq_52209929的博客

03-26

2618

计算图非标量调用backward()求梯度 x = torch.arange(4.0) x.requires_grad = True y = x * x 方法1：通过y.sum().backward()调用反向传播 y.sum().backward() print(x.grad) sum为y.sum() 把x带入得 x.grad为(0,2,4,8) 方法2：传入shape和x一样的ones参数 y.backward(torch.ones(x.shape)) ...

Java的clone机制及其重要的可变类与不可变类要义

adousen的专栏

05-03

1046

当方法中传递的参数是基本数据类型时，采用的是值传递；当输入参数是对象时，采用的是引用传递。这是“影子克隆(shallow clone)”。如果想要按值传递参数，该类就要实现cloneable接口，并实现clone方法，将“对象名.clone()”做参数传递(deep clone)。 Object 类有 clone() 方法： protected native Object cl

TensorFlow学习（3）初始化&非饱和激活函数&批量归一化&梯度剪裁&迁移学习&优化器

weixin_50862344的博客

09-16

752

TensorFlow学习（3）初始化&非饱和激活函数&批量归一化&梯度剪裁&迁移学习&优化器

pytorch中的detach函数干嘛的

最新发布

03-23

<think>嗯，用户想了解PyTorch中的detach函数的作用和使用场景。我需要先回忆一下相关的知识点。根据之前看到的引用资料，detach函数主要是用来从计算图中分离张量，停止梯度传播。比如引用3提到，detach()会创建一个新张量，不再参与梯度计算。引用4也说明分离后的张量不再有梯度信息。接下来，用户可能想知道具体的使用场景。根据引用2，detach在控制计算图方面很关键，比如在生成对抗网络（GAN）中，防止生成器更新时影响判别器。或者是在模型评估时，不需要计算梯度的情况下使用detach节省资源。引用3还提到了节省计算资源的例子，比如分离不参与梯度更新的张量，减小计算图规模。需要解释清楚detach的基本作用，比如停止梯度追踪、节省资源，然后结合代码示例说明。比如在代码中，使用detach后的张量requires_grad变为False，反向传播时不会计算它的梯度。引用3中的示例代码正好可以说明这一点，x的梯度仍然存在，但z的梯度被分离了。还要注意用户可能遇到的常见问题，比如什么时候该用detach，误用会不会导致梯度错误。比如在需要固定部分参数，或者在将张量转换为numpy时，必须用detach，否则可能影响计算图或报错。另外，生成相关的问题需要考虑用户可能进一步想了解的内容，比如detach和with torch.no_grad()的区别，或者如何在实际项目中应用detach，或者常见错误有哪些。这样用户可以有更全面的理解。总结一下，回答的结构应该是先介绍作用，再分点详细说明，然后给出代码示例，最后注意事项和相关问题。确保使用正确的中文术语，并正确应用LaTeX格式，比如张量用$...$，独立公式用$$...$$。同时，引用资料中的例子要自然地融入回答中，并在适当的位置加上引用标识。</think>### PyTorch中`detach`函数的作用与使用场景 #### 一、`detach`函数的作用 `detach()`是PyTorch中用于**从计算图中分离张量**的核心方法，其主要功能包括： 1. **停止梯度追踪** 通过`detach()`生成的张量与原始计算图完全分离，后续操作不再记录梯度。例如： ```python x = torch.tensor([2.0], requires_grad=True) y = x * 3 z = y.detach() # z脱离计算图，不再参与梯度计算 ``` 反向传播时，`z`的梯度不会被计算，而`y`和`x`仍保留梯度[^3][^4]。 2. **节省计算资源** 分离不需要梯度更新的张量可以缩小计算图的规模，降低内存和计算消耗[^3]。 3. **保护数据完整性** 在需要将张量转换为NumPy数组或用于可视化时，必须使用`detach()`避免因梯度追踪导致的操作错误[^2]。 --- #### 二、典型使用场景 1. **固定模型参数** 在迁移学习中，若需冻结预训练模型的部分参数： ```python for param in model.layer.parameters(): param.detach_() # 直接修改参数张量，使其脱离计算图 ``` 2. **生成对抗网络（GAN）** 训练生成器时，需防止梯度传播到判别器： ```python real_output = discriminator(real_data) fake_data = generator(noise).detach() # 分离生成器输出，避免影响判别器梯度 fake_output = discriminator(fake_data) ``` 3. **模型推理与评估** 在测试阶段禁用梯度计算以提高效率： ```python with torch.no_grad(): output = model(input) # 等价于 output = model(input).detach() ``` 4. **梯度裁剪** 在反向传播前分离部分张量以防止梯度爆炸： ```python loss = criterion(output, target) loss.backward(retain_graph=True) clipped_grad = torch.clamp(model.weight.grad.detach(), -1, 1) # 分离后裁剪 model.weight.grad.copy_(clipped_grad) ``` --- #### 三、代码示例 ```python import torch # 原始张量 x = torch.tensor([2.0], requires_grad=True) y = x**2 + 3*x z = y.detach() # z脱离计算图 # 反向传播 y.backward() print(x.grad) # 输出: tensor([7.]) (因 dy/dx = 2x + 3 = 7) # 对z的操作不影响原始计算图 z += 5 print(z.requires_grad) # 输出: False ``` --- #### 四、注意事项 1. **内存共享** `detach()`生成的新张量与原始张量共享内存，修改其一会影响另一个。若需完全独立，需调用`.detach().clone()`[^4]。 2. **与`with torch.no_grad()`的区别** `detach()`仅针对单个张量，而`with torch.no_grad()`作用于代码块内的所有操作。 3. **反向传播中断** 若计算图中所有张量均被分离，梯度将无法回传，导致训练失败[^2]。 ---