
计算机视觉
文章平均质量分 76
GY-赵
这个作者很懒,什么都没留下…
展开
-
mini-Imagenet处理
mini-Imagenet 数据集处理原创 2022-11-25 17:46:30 · 3023 阅读 · 5 评论 -
Resnet
当残差为0时,此时堆积层仅仅做了恒等映射,至少网络性能不会下降,实际上残差不会为0,这也会使得堆积层在输入特征基础上学习到新的特征,从而拥有更好的性能。下图是Resnet的组成结构图,前两个是浅层网络,后边三个为深层网络,类似于Inception网络一样,将网络结构分成几个building blocks,深层和浅层的区别在于block内部的变化,使用三个卷积层代替浅层网络中两个卷积层,使用1x1卷积用来升维和降维。的表示非常灵活,上述公式为了方便,使用全连接的形式,但是也可以表示为多层卷积层。原创 2022-10-26 21:25:16 · 490 阅读 · 0 评论 -
PVT(Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions)
大小的patch,计算transformer所需的资源巨大, 因此必须想办法减少计算代价。作者这里主要使用一种SRA的方法,将计算attention需要的输入 K,V通过一个线性投影,减少计算维度。attention的计算还是以前的公式。通过这些公式,可以计算出 Attention(·) 操作的计算/内存成本比 MHA 低。倍,因此它可以在资源有限的情况下处理更大的输入特征图/序列。的图片,经过一个PatchEmbeeding将其分割成。作为下一阶段的输入,以此类推可以得到不同分辨率的。.........原创 2022-08-30 16:22:28 · 496 阅读 · 0 评论 -
计算IoU(D2L)
IoU代码实现细节原创 2022-07-30 11:49:04 · 261 阅读 · 0 评论 -
Benchmarking Detection Transfer Learning with Vision Transformers(2021-11)
这篇文章是何凯明在MAE之后关于纯transformer架构用于目标检测下游任务的探索,在MAE最后有所提及,之后还有一篇文章ViTDET一脉相承。对于VIT架构用于视觉任务带来了很多启发。目标检测作为一个中心的下游任务经常用来测试预训练模型的性能,例如训练速度或者精度等。当新的架构如VIT出现时,目标检测任务的复杂性使得这种基准测试变得更加重要。事实上,一些困难(如架构不兼容、训练缓慢、内存消耗高、未知的训练公式等)阻碍了VIT迁移到目标检测任务研究。论文提出了使用VIT作为Mask RCNN back原创 2022-07-05 18:01:22 · 1374 阅读 · 0 评论 -
ConvMAE(2022-05)
ConvMAE可以视为基于MAE的一种简单而有效的衍生品,对其编码器设计和掩码策略的最小但有效的修改。ConvMAE在Conv-transformer网络中应用时,其目的是学习判别性的多尺度视觉表示,并防止pre-train finetune差异化。ConvMAE直接使用MAE的掩码策略将会使transformer layer在预训练期间保持所有的tokens,影响训练效率。因此,作者引入了一种层次化掩码策略对应于卷积阶段的掩码卷积,确保只有一小部分可视化token(没有mask掉的)送入transfor原创 2022-07-04 21:38:36 · 1162 阅读 · 4 评论 -
MAE
作者开门见山说明了深度学习结构拥有越来越大的学习容量和性能的发展趋势,在一百万的图像数据上都很容易过拟合,所以常常需要获取几百万的标签数据用于训练,而这些数据公众通常是难以获取的。MAE的灵感来源是DAE(denosing autoencoder),去噪自编码器就是encoder的输入部分加上噪声作为输入,decoder还原真实的输入,其损失函数为decoder的输出与真实输入之间的均方误差,相比与原来的autoencoder,DAE必须去除噪声,学习到输入数据的重要特征。在NLP领域中self-super原创 2022-07-01 17:04:42 · 1356 阅读 · 0 评论 -
Densenet(2018)
实验结果不同Densenet对比ResNet与DenseNet对比Network改进方法resenet 网络结构如下:densenet:codeimport tensorflow as tffrom tensorflow.keras import layers, Sequential, Modelclass BottleNeck(layers.Layer): def __init__(self, growth_rate): super(Bottl.原创 2022-04-24 15:07:07 · 388 阅读 · 0 评论 -
Swin-Transformer(2021-08)
一直到写下这篇笔记开始,基于Swin的模型仍在paperwithcode上仍然霸榜Object Detection等多个榜单。很多博客都已经介绍的非常详细了,这里只记录一下自己学习过程中遇到的困惑。Swin与ViT的对比,ViT将image划分为固定大小的patch,以patch为单位进行attention计算,计算过程中的feature map 分辨率是保持不变的,并且ViT为了保持与NLP的一致性,添加了一个额外的class token,最后用于分类。因此ViT不太适用于检测等下游任务,无法提取多原创 2022-06-25 17:35:13 · 1145 阅读 · 8 评论 -
Relative Positional Bias -- [Swin-transformer]
论文中对于这一块的描述不是很清楚,特意记录一下学习过程。这篇博客讲解的很清楚,请参考阅读https://blog.youkuaiyun.com/qq_37541097/article/details/121119988以下通过代码形式进行一个demo。输出计算相对坐标索引时,采用了一种我之前没见过的扩张维度的方法,简介高效输出输出2.计算相对索引输出转换为[4,4,2],相当于得到4个4*2的坐标对,一行横坐标,一行纵坐标输出输出输出这里就得到相对位置索引,这里对应的值需要到rela原创 2022-06-25 15:57:30 · 1049 阅读 · 1 评论 -
FPN-Feature Pyramid Network
思维脑图总结原创 2022-06-07 19:38:06 · 166 阅读 · 0 评论 -
RCNN系列总结
思维脑图总结原创 2022-06-07 15:28:46 · 113 阅读 · 0 评论 -
VITDET(2022-03)--Exploring Plain Vision Transformer Backbones for Object Detection
这篇论文是作者Benchmarking Detection Transfer Learning with Vision Transformers论文的扩展,没有正式出版,也没有经过同行评议。论文研究了使用一个单一的、没有层次设计的VIT架构作为backbone用于目标检测领域,使得原始VIT经过微调就可用于检测任务而不需要重新设计一个层次的backbone进行预训练。主要有两点:原始的VIT不像CNN一样,是一个非层次的设计,从头到尾保持单一尺度的feature map。因此,在目标检测中遇到了挑战,例如多原创 2022-06-06 11:49:26 · 1133 阅读 · 0 评论 -
Integral Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection(imTED)
Arxiv上一篇基于MAE 用于目标检测的文章,是在查找小样本文章的时候发现的,因为与自己的idea有点相似,所以仔细读了一遍,代码还未开源。其中有个作者Peng Zhiliang ,不知道是不是复现MAE的大佬本佬,整篇论文读下来还是比较容易理解的,但是感觉和小样本有关的部分很少,只是一个附带点,反而大量篇幅是在讨论如何将MAE整体迁移到目标检测领域,个人觉得可能是sota的结果不太好,所以加了小样本的部分。论文开篇明义,以参数初始化为切入点,提到现代检测器利用视觉VIT作为backbone,但检测的其它原创 2022-06-02 18:32:23 · 1146 阅读 · 5 评论 -
SSD(2016)
introduction提出一种简单的叫SSD的深度神经网络用于目标检测,该方法有几个特点:把边界框的输出空间离散为在feature map的每个位置上具有不同大小和尺寸的一组默认的box网络结合了来自不同分辨率的多个feature map的预测,可以自然的处理不同大小的目标第一个基于目标检测器的不需要为边界框采样像素或特征的深度网络,同时与那些采样的方法一样精确。SSD大大提升了高精度检测的速度,59FPS with mAP 74.3% on VOC 2007 test,VS.Faster.原创 2022-04-30 11:39:35 · 1012 阅读 · 0 评论 -
R-FCN(2016)
introduction本文提出了一种基于区域的全卷积神经网络用于目标检测,取得了与Faster R-CNN差不多的精度,但在训练和推理方面表现更好。FCN有两个亮点:不同于Fafster RCNN ,执行上百次代价高昂的RoI,FCN全卷积几乎共享在整张图像上的计算提出了位置敏感score maps用于解决图像分类的平移不变性与目标检测任务的平移同变性之间的矛盾。(因为网络既要用于分类又要用于检测)平移不变性(translation -invariance)是指目标的平移不会对结果产生影响.原创 2022-04-24 22:21:14 · 3589 阅读 · 0 评论 -
Mask R-CNN(2018-01)
Mask R-CNN由Faster R-CNN通过在每一个ROI(Region ofinterest)增加一个预测分割mask的分支扩展而来,与用于分类和bounding box回归的现有分支并行。原创 2022-04-23 21:46:19 · 2604 阅读 · 0 评论 -
轻量化网络-SqueezeNet(2016)
为什么需要轻量化网络?小模型有更高效的分布式训练效率。通信开销一直是分布式CNN训练的制约因素,在数据并行训练中,通信开销与模型参数是成比例的,模型越小,通信开销就越小。推送一个新模型到客户端,开销更小。例如自动驾驶领域,汽车辅助驾驶系统中的CNN模型在更新的时候需要更大的数据传输,以AlexNet为例,从服务器到客户端至少需要240MB 通信开销,更小的模型需要更少的开销,日常更新更容易。更容易在FPGA或嵌入式设备上部署。由于嵌入式设备经常是片内存储,不能外挂存储器件,同时存储空间越大,价格越.原创 2022-04-17 11:29:12 · 3592 阅读 · 0 评论 -
transformer综述汇总与变形分析(持续更新)
Note: 本文收集transformer领域的较流行的综述文章,将认为比较重要的内容整理在一起,用于学习和提供思路。1.谷歌:Efficient Transformers: A Survey(2020年9月)2.华为、北大:A Survey on Visual Transformer(2020年12月)3.复旦大学邱锡鹏组综述:A Survey of Transformers(2021年6月15日)随着transfomer的成功,各种基于原始transfomrer的变形不断被提出,作者将其归纳为3原创 2022-04-12 11:13:43 · 16545 阅读 · 4 评论 -
VS2019+OpenCV3.4.1_vc14vc15配置简介(防忘记)
1、下载安装openCV3.4.1for VC版本解压后的文件目录如下:build文件夹是编译生成的文件,sources文件夹是源码库要想详细了解目录中的内容,可以参考下面的博客:https://blog.youkuaiyun.com/u011574296/article/details/69421922 **接下来我们要配置开发环境,需要进行以下几个简单步骤: A.配置系统环境变量 B.配置开发环境**A.配置系统环境变量搜索打开环境变量的设置界面找到系统变量下的path,原创 2020-07-28 01:13:18 · 5467 阅读 · 6 评论