Pytorch 可微分round函数

Salmon_lee

已于 2022-04-07 11:59:05 修改

阅读量4.3k

点赞数 9

分类专栏：科学炼丹文章标签： pytorch 深度学习

于 2022-01-26 18:45:26 首次发布

本文链接：https://blog.youkuaiyun.com/leelitian3/article/details/122706994

版权

科学炼丹专栏收录该内容

14 篇文章

订阅专栏

round函数在定义域中的导数，处处为0或者无穷，梯度无法反向传播。本文将使用autograd.function类自定义可微分的round函数，使得round前后的tensor，具有相同的梯度。

from torch.autograd import Function


class BypassRound(Function):
  @staticmethod
  def forward(ctx, inputs):
    return torch.round(inputs)

  @staticmethod
  def backward(ctx, grad_output):
    # 这里的grad_output是round之后的tensor的梯度，直接将它作为round之前tensor的梯度
    return grad_output


# Function.apply的别名
bypass_round = BypassRound.apply

# demo
z3_rounded = bypass_round(z3)

具体原理和细节参考以下博客：

定义torch.autograd.Function的子类，自己定义某些操作，且定义反向求导函数_tsq292978891的博客-优快云博客_saved_tensors

2022.4.7更新：更简单的方法如下

def ste_round(x):
    return torch.round(x) - x.detach() + x

torch.round(x)导数处处为0，x.detach()在计算图中，x的导数为1

因此：ste_round(x)的梯度 == x的梯度

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Salmon_lee

关注关注

9
点赞
踩
13

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

PyTorch深度学习实战（2）——PyTorch基础

盼小辉丶的博客

06-04

5万+

PyTorch 是广泛应用于机器学习领域中的强大开源框架，因其易用性和高效性备受青睐。在本节中，将介绍使用 PyTorch 构建神经网络的基础知识。首先了解 PyTorch 的核心数据类型——张量对象。然后，我们将深入研究用于张量对象的各种操作。PyTorch 提供了许多帮助构建神经网络的高级方法及组件，并提供了利用 GPU 更快地训练神经网络的张量对象。

【小白深度教程 1.18】手把手教你使用 Pytorch3D（3）使用可微分体积渲染拟合 Volume

2401_87064292的博客

09-11

563

本教程展示了如何使用可微分体积渲染，根据场景的一组视图来拟合体积（Volume）。更具体地说，本教程将解释如何： - 创建一个可微分体积渲染器。 - 创建一个体积模型（包括如何使用 Volumes 类）。 - 使用可微分体积渲染器基于图像拟合体积。 - 可视化预测的体积。

3 条评论您还未登录，请先登录后发表或查看评论

pytorch:tensor的运算

meijie2018_1的博客

10-22

2631

** 一、加减乘除 ** torch.add / torch.sub / torch.mul / torch.div 分别为矩阵对应元素的加减乘除与使用符号±*/功能相同 //表示整除 In [1]: import torch In [2]: a = torch.rand(3,4) In [3]: b = torch.rand(4) In [4]: a+b Out[4]: tensor([...

pytorch中的 torch.round()函数

热门推荐

m0_46483236的博客

03-19

1万+

函数详解： torch.round(input, out=None) 说明：返回一个新张量，将输入input张量的每个元素舍入到最近的整数。参数： input（Tensor）：输入张量 out（Tensor，可选）：输出张量 import torch a = torch.randn(4) print(a) ## tensor([-0.8229, -0.6338, -1.3387, -0.0584]) print(torch.round(a)) ## tens

torch.round()

持之以恒

10-27

4565

>>> a = torch.randn(4) >>> a tensor([ 0.9920, 0.6077, 0.9734, -1.0362]) >>> torch.round(a) tensor([ 1., 1., 1., -1.])

Pytorch函数

weixin_43244470的博客

03-29

395

***1、Variable：***一种存放tensor变量的方式，pytorch中tensor只能放在CPU上运算，而(variable)变量是可以只用GPU进行加速计算的。 from torch.autograd import Variable x = Variable(tensor, requires_grad = True) Varibale包含三个属性：data：存储了Tensor，是本...

【深度学习】与【PyTorch实战】

小李很执着的博客

05-21

2474

神经网络模仿生物神经系统，由许多互联的神经元（人工神经元）组成。输入层：接收外部输入数据，每个神经元代表一个输入特征。隐藏层：位于输入层和输出层之间，负责提取和处理输入特征，数量和结构可以多样化。输出层：产生最终的输出，每个神经元代表一个输出结果。神经网络通过调整各层之间的连接权重，学习数据中的模式和特征。动态计算图：支持即时计算，便于调试和修改模型结构。强大的自动微分：通过autograd模块实现自动求导，简化了梯度计算过程。模块化设计：提供丰富的预定义模块和函数，方便构建和训练复杂的神经网络。

【pytorch】使用pytorch构建线性回归模型-了解计算图和自动梯度

weixin_45568812的博客

01-11

1460

小批量随机梯度下降（Mini-batch Stochastic Gradient Descent）是批量梯度下降的一种变体。与批量梯度下降相比，小批量随机梯度下降在每次迭代时只使用一小部分数据（称为小批量）来计算梯度，然后根据这个梯度来更新模型的参数。Jθ1m∑i1mLyifθxiJθm1i1∑mLyifθxi))其中，JθJ(\theta)Jθ是目标函数，mmm是数据集的大小，LyifθxiLyi。

深度学习开发入门（三）——PyTorch深度学习基础

2202_75671186的博客

03-24

1018

Tensor对象是一个任意维度的矩阵，但是Tensor中所有元素的数据类型必须一致。torch包含的数据类型和普遍编程语言的数据类型类似，包含浮点型、有符号整型和无符号整型。这些类型既可以定义在CPU上，也可以定义在GPU上。在使用Tensor数据类型时，可以通过dtype属性指定它的数据类型，device指定它的设备（CPU或者GPU）。通过device在GPU上定义变量后，可以在终端上通过nvidia-smi命令查看显存占用。torch还支持在CPU和GPU之间复制变量。

’torch.round后梯度为0，无法进行梯度回传‘的解决方法

Paul_Huang的专栏

05-30

1913

问题描述：round函数在定义域中的导数，处处为0或者无穷，梯度无法反向传播。本文将使用autograd.function类自定义可微分的round函数，使得round前后的tensor，具有相同的梯度。torch.round(x)导数处处为0，x.detach()在计算图中无梯度，因此其ste_round的倒数就是x的导数。torch.round(x)导数处处为0，x.detach()在计算图中，x的导数为1。

关于torch.round可导性问题

qq_39861441的博客

08-05

1499

先上结论：不可导 import torch import torch import torch.nn as nn class g(nn.Module): def __init__(self): super(g, self).__init__() # self.k = nn.Conv2d(in_channels=2, out_channels=1, kernel_size=1, padding=0, bias=False) def forward(s

pytorch教程(1.5)——梯度自动计算

leetteel

09-14

1307

摘要在训练神经网络时，最常用的算法是反向传播。在该算法中，参数（模型权重）根据损失函数相对于给定参数的梯度进行调整。为了计算这些梯度，PyTorch 有一个名为 torch.autograd 的内置微分引擎。它支持任何计算图的梯度自动计算。考虑最简单的一层神经网络，输入 x，参数 w 和 b，以及一些损失函数。它可以通过以下方式在 PyTorch 中定义： import torch x = torch.ones(5) # input tensor y = torch.zeros(3) #

PyTorch深度学习

Ting_28的博客

03-14

1691

Tensor对象是一个任意维度的矩阵，但是一个Tensor中所有元素的数据类型必须一致。Torch包含的数据类型和普遍的编程语言的数据类型相似，包含浮点型、有符号整型和无符号整型。这些类型既可以定义在CPU上，也可以定义在GPU上。

pytorch基础知识八【基本数学运算】

weixin_43188487的博客

12-11

1961

基本数学运算1. 加减乘除2. 矩阵乘法3. 开方4. 近似运算 1. 加减乘除 a = torch.tensor([[1,2,3],[4,5,6],[7,8,9]]) print(a) b = torch.tensor([[10,20,30],[40,50,60],[70,80,90]]) # 加法 print(a+b) print(torch.add(a,b)) # 减法 print(torch.all(torch.eq(a-b,torch.sub(a,b)))) # 乘法 print(torch.

PytorchZerotoAll学习笔记（二）--梯度下降之手动求导

weixin_30474613的博客

01-15

359

梯度下降算法：　　待优化的损失值为 loss，那么我们希望预测的值能够很接近真实的值 y_pred≈ y_label 我们的样本有n个，那么损失值可以由一下公式计算得出：要使得loss的值尽可能的小，才会让预测的值接近于标签值： ...

深度学习Pytorch-Tensor的属性、算术运算

算法工程师

10-23

1051

深度学习Pytorch-Tensor的属性、算术运算

pytorch梯度下降函数_pytorch入门2：梯度下降算法

weixin_39681486的博客

12-21

119

原理：通过梯度下降算法，求解loss的最小值，设置好初始w权重值，不断进行迭代，最后得到最小的loss值代码：# Training Datax_data = [1.0, 2.0, 3.0]y_data = [2.0, 4.0, 6.0]w = 1.0 # a random guess: random value# our model forward passdef forward(x):retur...

pytorch学习笔记5--pytorch基本运算

code_fighter 博客

06-12

6556

文章目录基本运算add/minus/multiply/dividematmul基本函数统计属性normmean,sum,min,max,prod,argmin,argmaxkthvalue,topk\>,>=,<,<=,!=,==高阶操作(GPU)whereGather梯度lossMean Squared Error(MSE)：自动求导：torch.autograd.gra...

图像处理可微分量化

最新发布

05-09

<think>嗯，用户问的是图像处理中的可微分量化实现方法和代码。首先，我需要明确什么是可微分量化。量化通常指的是将连续值转换为离散值，比如将图像从浮点数转换为整数。但传统的量化是不可微的，因为涉及离散操作，这在深度学习中使用梯度下降时会出问题。所以可微分量化就是要让这个过程能够计算梯度，方便在神经网络中端到端训练。接下来，我得回忆一下相关的技术和方法。可能的方法包括使用Straight-Through Estimator（STE）、软化量化（比如用sigmoid或softmax代替阶跃函数）、基于概率的量化，还有最近的一些研究比如可微分的量化网络。另外，可能还要结合一些具体的应用场景，比如低照度图像处理或者目标检测中的预处理步骤，像用户提供的引用里提到的GDIP模块和YOLOv8改进。然后，用户需要代码示例，所以得找一个典型的实现，比如用PyTorch实现可微分量化。可能需要用到STE，或者软化操作。比如，在量化时，前向传播使用四舍五入，反向传播时用近似梯度，比如直通估计器，也就是将梯度直接传递而不经过量化操作。或者使用sigmoid函数来模拟量化的阈值，使其可微。还要考虑如何将量化步骤嵌入到神经网络中，比如作为一个层来处理。可能需要定义一个自定义的autograd Function，这样在forward时做量化，backward时处理梯度。例如，在PyTorch中，可以继承torch.autograd.Function，实现forward和backward方法。另外，用户提供的引用中有提到GDIP模块和图像窗口变换，可能这些方法中也有可微分的处理。比如GDIP模块可能结合了可微分操作来处理图像增强，而窗口变换中的阈值处理如果改为可微分形式，就可以用在端到端训练中。例如，用sigmoid来软化二值化的阈值，使得梯度可以回传。需要注意，代码示例要简洁明了，展示关键部分。例如，定义一个可微分量化层，使用STE或者软化操作。同时，可能需要解释每个步骤的作用，比如如何在前向传递中进行量化，反向传递中如何处理梯度。还要考虑应用场景，比如在低照度或去雾任务中，可微分量化如何帮助模型自动调整参数，提升目标检测性能。例如，引用中的GDIP模块可能就是这样应用的，将图像预处理步骤变成可学习的参数，通过梯度下降优化。可能还需要讨论优化方法，比如如何平衡离散化带来的信息损失和模型性能，或者如何设计损失函数来指导量化参数的训练。例如，结合重建损失和量化误差，或者使用对抗训练来提升生成效果。最后，生成相关问题时要覆盖技术原理、优化方法、应用场景以及与其他技术的结合，比如与GAN或对比学习的结合，或者硬件部署时的优化策略。</think>### 可微分量化在图像处理中的实现方法 #### 一、技术原理 可微分量化（Differentiable Quantization）通过将传统离散化操作转换为连续可导形式，使量化过程能够嵌入到神经网络中进行端到端训练。核心思想是**软化离散操作**，例如使用$sigmoid$函数逼近阶跃函数，或引入概率分布建模量化误差[^2]。 #### 二、典型实现方法 1. **直通估计器（Straight-Through Estimator, STE）** 前向传播使用硬量化，反向传播时用连续近似梯度： ```python class STEQuantize(torch.autograd.Function): @staticmethod def forward(ctx, x, num_bins=8): scale = 255 / (num_bins - 1) return torch.round(x * scale) / scale # 硬量化 @staticmethod def backward(ctx, grad_output): return grad_output, None # 直通梯度 ``` 2. **软化量化（Soft Quantization）** 使用可导函数逼近离散操作： $$q(x) = \frac{1}{1 + e^{-k(x - \tau)}}$$ 其中$k$控制斜率，$\tau$为量化阈值，均为可学习参数。 3. **概率式量化** 基于Gumbel-Softmax实现随机量化： ```python def gumbel_softmax(logits, temperature=0.1): gumbel = -torch.log(-torch.log(torch.rand_like(logits))) return torch.softmax((logits + gumbel)/temperature, dim=-1) ``` #### 三、完整代码示例（PyTorch） ```python import torch import torch.nn as nn class DifferentiableQuantizer(nn.Module): def __init__(self, num_bins=8, temperature=0.1): super().__init__() self.bin_centers = nn.Parameter(torch.linspace(0, 1, num_bins)) self.temperature = temperature def forward(self, x): # 计算与各量化中心的距离 distances = torch.abs(x.unsqueeze(-1) - self.bin_centers) # 使用Gumbel-Softmax选择最近中心 selection = gumbel_softmax(-distances, self.temperature) # 加权求和实现可导 return torch.sum(selection * self.bin_centers, dim=-1) # 使用示例 quantizer = DifferentiableQuantizer(num_bins=8) input_img = torch.rand(1, 3, 256, 256) # 输入图像 quantized_img = quantizer(input_img) # 可微分量化结果 ``` #### 四、优化要点 1. **梯度平衡**：通过温度参数控制Gumbel-Softmax的"硬度"，训练初期用高温度（更平滑），后期逐步降低[^2] 2. **损失设计**：联合优化量化误差和下游任务损失： $$\mathcal{L} = \alpha \|x - q(x)\|_2 + \mathcal{L}_{task}$$ 3. **硬件适配**：部署时替换为硬量化，保持训练-推理一致性 #### 五、应用场景 1. 低照度图像增强中的动态范围压缩 2. 目标检测预处理中的自适应二值化（如改进YOLO系列[^2]） 3. 图像压缩中的可学习量化表