
深度学习
文章平均质量分 94
Ton10
肩上带风的tt
展开
-
深度学习之DAT
这篇文章是2022年Vision-Transformer领域的CVPR论文。文章推出了一种新的Vision Transformer模型——(DAT)。DAT将DCN运用到Transformer中,从而将注意力的运算集中在重要性区域上,为目标检测带来了一定程度的性能提升。DAT最大的价值在于其使得自注意力层可以聚焦于相关区域来捕获信息。参考目录:①源码②CVPR 2022 | 清华开源DAT:具有可变形注意力的视觉Transformer③DAT论文解读(暖风)Note:Vision Transforme原创 2022-07-25 17:20:21 · 2571 阅读 · 0 评论 -
深度学习之SuperViT
首先需要指明的一点是,SuperViT比ViT强在哪?计算效率。SuperViT通过使用较低分辨率的输入图像来将token控制在较小的范围内,从而降低相似度计算次数;此外,作者将一些含有重要信息较少的token直接丢弃,从而进一步降低每一种尺度下的注意力计算量。准确率。SuperViT使用机制,也可以理解为丢弃不相关的token的方法。这种方式可以将注意力集中在信息更加重要的地方;此外,多尺度的输入产生了不同尺度的相关性与感受野,从而可以提取更加丰富的特征信息。本文提出了一种新的优化ViT的模型——...原创 2022-07-23 19:10:19 · 1819 阅读 · 0 评论 -
深度学习之COLA-Net
这篇文章是首篇将局部(Local)注意力和全局(Non-Local)注意力进行结合来做图像重建的论文。文章作者设计了一个将局部注意力机制和全局注意力机制一起协同合作来重建图像的网络模型——Collaborative Attention Network(COLA-Net);文章的核心是提出了一个patch-wise的产生自注意力的新结构,和ViT不同,它除了拥有捕捉图像上长距离相关性之外,还能更好地捕捉局部相关性,当然也只是增加了一些局部相关,但并没有做到CNN那样捕捉局部相关性的能力。Note:局部.原创 2022-05-17 21:17:26 · 4421 阅读 · 1 评论 -
深度学习之ViT
这篇文章的核心是提出了Vision-Transformer结构,将2017年Attention is All you Need在NLP中引入的Transformer结构应用于计算机视觉任务中。Transformer是一种基于自注意力结构的网络,和CNN捕捉卷积窗口内的局部信息不同,它利用注意力来捕获全局上下文信息之间的相关性。文章引入图像块(patch)的概念,patch由P×PP\times PP×P个像素组成,通过将patch进行flatten,然后通过投影层转换成固定长度的特征向量,最后和NLP中表.原创 2022-05-14 18:56:08 · 3839 阅读 · 1 评论 -
深度学习之DCN-v2
这篇文章发表在2019的CVPR上,是Deformable Convolution Network的进阶版本——DCN-v2,通过对DCN的两处改进来增加卷积神经网络的适应性与灵活性。具体来说,通过堆叠多个DCN来增强感知的范围;通过引入调制机制来为DCN增加更多选择采样区域的自由度,这种调制通过门机制来实现对采样区域的注意力。Deformable ConvNets v2: More Deformable, Better ResultsAbstract1 Introduction2 Focus poin.原创 2022-05-03 16:12:45 · 7557 阅读 · 0 评论 -
深度学习之DCN
这篇文章介绍了一种可针对空间不变性的卷积方法,不同于常规的卷积网络种卷积核和待提取feature map是相同的(假设dilation=1),可变形卷积(Deformable Convolution Networks)的待提取feature map可能是任意变形之后的一个个采样点。DCN的提出使得网络不再对经过变换之后的输入敏感,即增加了空间不变性。Note:本文只介绍论文中的可变形卷积部分,而没有介绍论文中的可变形ROI池化部分。参考目录:①深度学习可形变卷积②源码③深度学习之 DCN(.原创 2022-04-15 17:22:26 · 8966 阅读 · 2 评论 -
Pytorch之Rot旋转
整理记录一下PyTorch中旋转函数rot90的使用方法。参考目录:①PyTorch官方用法torch.rot901 使用背景2 函数简介3 实战效果3.1 顺时针旋转90°3.2 逆时针旋转90°3.3 逆时针旋转180°3.4 逆时针旋转前2个维度1 使用背景对于一个nnn维张量,如果想要对某2个维度进行旋转,可以调用torch.rot90()函数。2 函数简介调用格式:torch.rot90(Tensor, k, dim)Note:第一个形参Tensor是你准备进行旋转的张量.原创 2022-04-07 15:29:53 · 6401 阅读 · 1 评论 -
PyTorch之PixelShuffle
这里介绍一下PyTorch中torch.nn.PixelShuffle()这个层的背景介绍和相关用法。参考文档:①PyTorch中的PixelShufflePixelShuffle层1 背景介绍2 用法简介2.1 实战代码2.2 效果展示1 背景介绍PixelShuffle层又名亚像素卷积层,是论文Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural .原创 2022-04-05 13:03:49 · 11477 阅读 · 2 评论 -
论文笔记之STN
这篇文章是15年谷歌DeepMind团队推出的一个可以学习一种变换,这种变换可以将进行了仿射变换的目标进行矫正的网络——Spatial Transformer Network(STN)。STN具有空间不变性特点,也就是说STN可以使图片经过各种变换后的识别效果和未变换前的识别效果保持不变。Note:空间不变性:旋转、平移、缩放、裁剪不变性。传统的池化方式(Max Pooling/Average Pooling)所带来卷积网络的位移不变性和旋转不变性只是局部的和固定的(池化的大小一般都很小,比如3×.原创 2022-04-03 13:52:01 · 5322 阅读 · 1 评论 -
深度学习之Inception-ResNet
这篇文章由谷歌在17年提出,收启发于何凯明提出的ResNet在深度网络上较好的表现影响,作者将Residual connection加入到Inception结构中形成2个Inception-ResNet版本的网络以及一个纯Inception-v4网络。参考目录:①:论文补充版本(主要是补充一些图)②:从Inception v1到Inception-ResNet,一文概览Inception家族的「奋斗史」③:论文笔记1④:论文笔记2截至这篇文章发表,谷歌提出的关于Inception块组成的Goog原创 2022-03-21 10:30:43 · 13698 阅读 · 0 评论 -
Pytorch入门之CNN和七大CNN网络
CNN的介绍我就不写了,基本的都知道,用于处理图像语音的一种神经网络。在全连接层的基础上,增加了卷积层和池化层。关于卷积层和池化层填充系数padding的计算公式,两者都是都是用一个核(窗口)去处理,卷积核是为了取得图像的信息,包含了网络的学习参数,池化层是为了突出图像重要信息和缩小图像规模(分为最大池化和平均池化),不含学习参数,但两者的计算模式都是一个窗口计算得到1个值,故计算模式是相同的。需要注意的是,Pytorch中的nn.Conv2d和nn.Maxpool中的padding系数是指填充一边原创 2020-10-11 21:51:47 · 2670 阅读 · 2 评论