像风一样自由的小周-优快云博客

原创 Pytorch转TensorRT相关代码及其报错解决方法

目前将Pytorch转为TensorRT主要有两种途径。一种是将Pytorch先转为ONNX，然后再用TensorRT解析ONNX格式；另一种是将通过开源项目torch2trt将Pytorch直接转为TensorRT。这两种方式或多或少会遇到算子缺失问题，比如Pytorch转ONNX时ONNX不支持einsum(可用einops.rearrange代替)、(暂未找到好的替换算子，速度精度都会降)、(需要改成普通的nn.AvgPool2d()，对精度影响不会很大)这三个算子。

2023-09-19 11:26:04 823

原创 Pyramid Scene Parsing Network–CVPR，2017论文解读及其pytorch代码

现阶段随着数据集制作精细化、标签种类变多、具有语义相似标签等导致出现一些困难样本，使得经典的语义分割网络无法很好的处理（如FCN，作者认为FCN缺乏合适的策略去利用全局场景类别线索）这些困难样本。如下，作者挑选了ADE20K数据集中几个具有代表性的困难样本，第一行因为FCN没有正确捕获图像内容之间的关系，错误的将外形和汽车相似的游艇识别为汽车，要是能够正确识别出其在水面上就能够避免这种错误；第二行是因为FCN没有捕获类别之间的关系导致遇到相似的类别。

2023-09-14 17:17:36 427

原创交叉熵、Focal Loss以及其Pytorch实现

这到底是怎么做到的呢？下调权重是一种技术，它可以减少容易的例子对损失函数的影响，从而使人们更加关注困难的例子。Focal Loss自然地解决了阶级不平衡的问题，(1因为来自多数类别的例子通常容易预测，而来自少数类别的例子由于缺乏数据或来自多数类别的例子在损失和梯度过程中占主导地位而难以预测。Focal loss关注的是模型出错的例子，而不是它可以自信地预测的例子，确保对困难的例子的预测随着时间的推移而改善，而不是对容易的例子变得过于自信。不同损失函数有着不同的约束作用，不同的数据对损失函数有着不同的影响。

2023-06-26 16:58:24 4045

原创 Context Prior for Scene Segmentation--CVPR, 2020

问题：现阶段，不少语义分割方法所限于卷积结构，忽略了同类型的上下文之间的关系，但同一类别的相关性（类内上下文）和不同类之间的差异（类间上下文）使得特征表示更加鲁棒并减少可能类别的搜索空间。目前主要有两种改进方式：1.Pyramidbased aggregation method. 这类方法重视类内关系、忽视了类间关系。从而在困难样本上效果较差。

2023-06-15 17:24:22 864

原创熵、信息量、条件熵、联合熵、互信息简单介绍

近期在看对比学习论文，发现有不少方法使用了互信息这种方式进行约束，故在此整理一下网上关于互信息的相关内容。

2023-05-14 20:00:54 2919

原创 Pytorch存储权重以及如何加载

关于Pytorch如何使用，必然是官方教程写的好。

2023-05-08 17:14:19 4019 1

原创常见的上采样操作以及其Pytorch实现

而在实际生成的图像中，该部分却是由深深浅浅的近黑方块组成的，很像棋盘的网络。这个效应在深度卷积神经网络中的影响是很大的。就是在反卷积过程中，当卷积核大小不能被步长整除时，反卷积就会出现重叠问题，插零的时候，输出结果会出现一些数值效应，就像棋盘一样。并且，反卷积只能恢复尺寸，并不能恢复数值，因此经常用在神经网络中作为提供恢复的尺寸，具体的数值往往通过训练得到。普通的上采样采用的临近像素填充算法，主要考虑空间因素，没有考虑channel因素，上采样的特征图人为修改痕迹明显，图像分割与GAN生成图像中效果不好。

2023-04-17 17:23:27 3444

原创 Vision Transformers for Dense Prediction论文笔记

本篇论文主要提出一种网络，基于Transformer去进行密集预测。众所周知，对于密集预测任务，常见的网络架构为Encoder+Decoder结构。当Encoder提取的特征有损时，Decoder很难去进行恢复。但是目前常用的卷积网络架构常常使用下采样方式，**逐步增加感受野，将低级特征分组为抽象的高级特征，同时确保网络的内存和计算需求保持易于处理。**但是，下采样有一个明显的缺点，特征分辨率和粒度（我感觉这里的粒度像是细粒度特征）在模型的更深层特征丢失，在Decoder中难以恢复。

2023-04-14 09:29:56 2102

原创 MAE论文笔记+Pytroch实现

本篇论文提出了一个非对称自编码器架构（这里的非对称指的是Encoder和Decoder看到的东西即输入时不一样的），用来得到一个泛化能力比较强的特征提取器。进行自监督学习可以用来进行迁移学习。自编码器简单的说就是一个模型包含两个部分Encoder和Decoder，其中Encoder用来进行特征提取，Decoder用来进行还原图像。自编码器的任务是输入噪声或有损图片，输出重构好的图片，就是还原图片。通过训练，得到的特征提取器Encoder就有较强的特征提取能力，可以用来进行自监督学习。什么叫自监督学习呢？

2023-04-08 23:06:42 2376 4

原创 ViT笔记以及其Pytroch实现

目前在NLP领域，transformer已经占据主导地位。不少学者尝试将attention和CNN相结合，这些方法往往依赖于CNN，其性能相较于常见的卷积网络如ResNet等还是有差别。在NLP领域，使用transformer时，当不断增加模型大小和数据集数量，模型性能没有出现饱和趋势。同样的在CV领域，当数据量较小时，使用transformer有时并不比常见卷积性能好。但当数据集数量不断变大，transformer性能不断提高，甚至超过常见卷积模型。本片论文介绍的方法主要是用来进行分类的。

2023-04-06 10:33:15 848

原创 Pytroch数据集处理以及自定义数据集

transform首先，如果自定义transform就需要遵循一定的规则。仅接受一个参数，并返回一个参数。如果是多个图片需要同时处理，可以用字典传输实现需要在__call__中进行如下为参考代码。

2023-04-04 10:37:06 582

原创服务器使用——解压常见文件tar、zip、rar等

加压后可以看到有一个rar.txt，里面有rar具体的使用方法。这篇关于zip博客写的挺全的，这里直接放。

2023-03-22 21:45:31 8013

原创 Rethinking Channel Dimensions for Efficient Model Design论文笔记

这里我认为是指的网络第一层的卷积层指的是模型训练中需要训练的参数总数，这里我们应该知道卷积网络中如果每一层的输出或输入通道数变多，相应的模型的参数总数也会变多。浮点数运算次数，理解为计算量，可以用来衡量算法的复杂度。一个乘法或一个加法都是一个FLOPs（注意：这里的S是大写）每秒浮点运算次数，理解为计算速度，是一个衡量硬件性能的指标。指的是输出通道数比上输入通道数。这是网络提出的一个结构。网络结构如下：这个和常见的残差模块不同地方在于中间层的通道数大于两侧的通道数，即中间宽两边窄。

2023-03-22 09:35:35 343 1

原创 Python类的继承

通常情况下当有了继承关系，子类在查找方法时，先从自己的本身类中寻找方法，如果找到了，就直接调用（如代码中的Bar类）；也可以这样理解，当有了继承关系后，子类就直接把父类的方法复制下来了，子类可以重写父类的方法。但如果出现了找到的父类方法f2中调用了被子类重写的方法f1，这时是调用父类本身的方法f1还是子类的方法f1呢（有点绕，看下面的代码就容易理解了）。答案是调用子类重写的方法f1。其实比较有意思的是如果把父类中的方法f1注释掉，即下面代码中Foo类的f1函数注释掉，下面代码运行结果还是和未注释是一样的。

2023-03-16 22:02:31 9045 1

原创 MobileNetV2论文笔记以及Pytroch实现

这篇文章主要目的是提出一个轻量化模型，能够支持手机等算力较小的平台使用。作者提出了Manifold of interest这个名词来论述当特征维度较小时使用RELU函数进行激活会导致信息丢失。这里我引用一下Classification基础实验系列四——MobileNet v2论文笔记与复现对这个名词的解释。

2023-03-15 10:53:46 538 2

原创多尺度分析

首先我们看一下上述图例中的a，也就是我们常用的卷积神经网络。随着网络越来越深，卷积网络提取到的特征语义越丰富，但是对于上图桌子上的鼠标，往往在对应于网络中的最后一个卷积网络层提取到的特征中的某一个数值（这样往往是不够的，一个数值表达的东西也太少了）。对于某些不太关注这些微小物体的任务而言，比如图像分类，标签只有电脑和椅子这些大物体。往往这样做对于网络性能影响不大。但是有不少像素级任务，比如语义分割需要给每一个像素进行分类，故这些微小物体便需要格外注意。为了提高对这些小物体的特征提取能力，一个简单的做法是，最

2023-03-07 15:06:44 506 1

原创长尾分布论文笔记：BBN

1.网络结构图作者已经发现使用re-balancing方法可以提高模型性能，但是使用该方法会导致特征提取层模型性能下降。故作者想要结合这两个方法的优势，来进一步提高模型性能。作者的办法是使用一种累计学习策略，先学习通用模式，然后逐渐关注尾部数据。这里简单介绍一下这个网络的流程。首先通过两个部分共享的双分支网络，输入一个是具有长尾分布的数据集xcyc(x_c,y_c)xcyc，另一个是通过reverse操作后的数据集xryr(x_r,y_r)xryr。

2023-03-02 16:01:15 2288 2

原创特征可视化技术t-SNE

python sklearn就可以直接使用T-SNE，调用即可。这里面TSNE自身参数网页中都有介绍。这里fit_trainsform(x)输入的x是numpy变量。pytroch中如果想要令特征可视化，需要转为numpy；此外，x的维度是二维的，第一个维度为例子数量，第二个维度为特征数量。比如上述代码中x就是4个例子，每个例子的特征维度为3。Pytroch中图像的特征往往大小是BXCXWXH的，可以flatten一下变成[B, CXWXH]。

2023-02-28 18:29:52 1555

原创深度学习数据对模型的影响

尤其是当模型参数量很大，过于复杂时得到的性能比简单模型要差，这时候往往归结于模型的pipeline还是不够强大，却忽略了数据量的大小对模型性能的影响。如果使用带有长尾分布的数据集去直接训练分类网络的话，就会导致对于占比较大的类别能够较好的预测，占比较小的类别不能够较好的预测。从数据增强的使用频率来看，不难看出数据对于模型性能的重要性。数据增强简单的说就是基于现有的数据集，通过一些列变换产生不同的数据集以此来增强网络性能。就采用对齐混合图像的方式进行数据增强，如下，获得狗的形状，企鹅的纹理的数据。

2023-02-28 09:10:33 2673 1

原创论文笔记：How transferable are features in deep neural networks? 2014年NIP文章

许多在自然图像上训练的深度神经网络都表现出一个奇怪的共同现象：在第一层，它们学习类似于Gabor过滤器和color blobs的特征。这样的第一层特征似乎并不特定于特定的数据集或任务，而是通用的（论文中简称general），因为它们适用于许多数据集和任务。而最后一层提取到的特征很大程度上取决于选定的数据集和任务（论文中简称specific）。从上述现象我们便可以假设有这个结论：一定有一个类似于阈值的层数，当少于这个层数便不受任务和数据影响，大于这个层数便受任务和数据影响。

2023-02-22 22:46:13 1136 1

原创 ResNet简单介绍+Pytroch代码实现

当网络层数越来越深时，模型性能不如层数相对较少的模型。这将不利于构建更深的模型。现阶段有采用BatchNorm层来缓解梯度消失或者爆炸，但效果并不明显。训练集上就出现了退化情况，故不是过拟合导致。按道理，给网络叠加更多层，浅层网络的解空间是包含在深层网络的解空间中的，深层网络的解空间至少存在不差于浅层网络的解，因为只需将增加的层变成恒等映射，其他层的权重原封不动copy浅层网络，就可以获得与浅层网络同样的性能。更好的解明明存在，为什么找不到？找到的反而是更差的解？

2023-02-02 17:26:32 974

原创 VScode+Latex (Recipe terminated with fatal error: spawn xelatex ENOENT)和latex简单使用介绍

接下来，网上说要改settings.json啥的，我没修改也能用。当然，如果想新建一个latex文档，可以右击新建一个文件，把文件名后缀改为。首先，你要本地安装好TeXLive，就是上面（一）要安装的。接着打开vscode，按照下图所示，找到LaTeX workshop这个插件进行安装。很好解决，大概率的原因是因为latex没有添加到系统环境变量中，所有设置的编译工具没有办法找到才出现的这种情况。好啦，接下来就可以使用啦，输入以下代码进行测试。好啦，接下来就可以使用啦，输入以下代码进行测试。

2023-02-02 15:59:01 19380 11

原创自监督学习UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING IMAGE ROTATIONS论文笔记

关于自监督部分内容参考Self-supervised Learning 再次入门和知乎微调大佬的回答什么是无监督学习。

2022-12-27 15:15:29 1816 1

原创深度学习常见损失函数总结+Pytroch实现

均方差损失（MSE）也称为L2损失，其数学公式如下：JMSE=1N∑i=1N(yi−yi‘)J_{MSE}=\frac{1}{N}\sum_{i=1}^{N}{(y_i-y_i^{`})}JMSE=N1i=1∑N(yi−yi‘)在模型输出与真实值的误差服从高斯分布的假设下，最小化均方差损失函数与极大似然估计本质上是一致的。至于啥模型输出与真实值的误差服从高斯分布，这个还真的难说，极大似然估计是概率论中用来近似计算真实分布中的参数的一种方法。Pytroch官方文档如下：官方文档介绍：size

2022-11-28 22:53:37 2128

原创 Pixel Difference Networks for Efficient Edge Detection论文笔记

的结果可以看出，如果只选择某一个卷积（PDC的三个卷积）放入Block_x_y中得到的结果并不是很理想，作者的解释是每一个stage中的第一个块中的PDC已经从原始图像中获得了很多梯度信息，滥用PDC甚至可能导致模型无法保留有用的信息。然而，一旦卷积核已经学习完毕，就可以根据所选像素对的位置，通过保存模型中和权重的差异，将PDC层转化为普通卷积。以这种方式，便可以在。现阶段，虽然使用CNN构建的网络可以获得和人类一样的边缘检测能力，但是基于CNN的边缘检测的高性能是通过大型预训练的CNN主干实现的，这既。

2022-11-23 11:05:29 1911 6

原创蒸馏+Distilling Knowledge via Knowledge Review论文笔记

近期在阅读cvpr 2021的一篇关于蒸馏学习的论文，正好趁此机会梳理一下蒸馏学习的相关内容，方便下次再阅读蒸馏学习论文时查阅。一下内容关于蒸馏学习的均是网上优秀文章总结，论文阅读笔记是自己总结。网上找了一圈关于知识蒸馏的博客，发现绝大部分都是针对分类任务而言的，我觉得这样论述的话会给人一种错觉，知识蒸馏只适用于分类任务。故我准备参考综述论文《知识蒸馏研究综述》（计算机学报，黄震华，2022年3月）。

2022-11-19 19:18:07 2402 2

原创预训练+微调+Rethinking ImageNet Pre-training论文阅读笔记

近期在阅读何凯明大神的Rethinking ImageNet Pre-training论文，论文中对比了深度学习提分小trick——pre-training和随机初始化之间对于任务性能的差别，实验证明预训练仅提高收敛速度但不能提高模型性能，同时预训练也不能防止过拟合。这就比较有意思了，正好我对预训练还有些不了解，正好趁着这个机会整理一下。

2022-11-17 11:14:50 1588 2

原创常见的卷积、卷积变体以及其Pytroch实现

近期读论文时发现不少论文使用的卷积不局限于常见的2D卷积，有轻量化的深度可分离卷积、改变通道数目的1*1卷积等，还有不少作者自定义的卷积网络。为了方便后期阅读论文，在此总结一下常见的卷积以及其Pytroch实现。这篇文章是建立在以及了解常见的2D卷积的基础上进行的。

2022-11-14 10:45:07 2327

原创高斯滤波器

图像噪声（image noise）是图像中一种亮度或颜色信息的随机变化(被拍摄物体本身并没有)，通常是电子噪声的表现。它一般是由扫描仪或数码相机的传感器和电路产生的，也可能是受胶片颗粒或者理想光电探测器中不可避免的的散粒噪声影响产生的。图像噪声是图像拍摄过程中不希望存在的副产品，给图像带来了错误和额外的信息。图像噪声的强度范围可以从具有良好光照条件的数字图片中难以察觉的微小的噪点，到光学天文学或射电天文学中几乎满画幅的噪声，在这种情况下(图像中的噪声水平过高，以至于无法确定其中的目标是什么)，只能通过非常

2022-11-04 20:54:07 4276

空空如也

空空如也