- 博客(125)
- 资源 (17)
- 收藏
- 关注

原创 ConvNeXt V2学习笔记
在改进的架构和更好的表示学习框架的推动下,视觉识别领域在21世纪20年代初实现了快速现代化和性能提升。例如,以ConvNeXt[52]为代表的现代ConvNets在各种场景中都表现出了强大的性能。虽然这些模型最初是为使用ImageNet标签的监督学习而设计的,但它们也可能受益于自监督学习技术,如蒙面自编码器(MAE)[31]。然而,我们发现,简单地结合这两种方法会导致性能不佳。在本文中,我们提出了一个全卷积掩码自编码器框架和一个新的全局响应归一化(GRN)层。
2023-01-05 20:50:16
7827
3

原创 YOLO系列算法学习
更换骨干网络Darknet结构(分类和检测结构)旷世研究院新作对于两种网络怎么选择?对于小分辨率,640x640大小,二者都可以进行尝试,如果是大分辨率图像最好使用V5,因为yolox在官方仓库中为提供大分辨率的检测。
2022-10-15 09:58:38
1685
1

原创 MetaFormer/PoolFormer学习笔记及代码
变形金刚在计算机视觉任务中显示出巨大的潜力。人们普遍认为,他们基于注意力的模块对他们的能力贡献最大。然而,最近的研究表明,Transformers中基于注意力的模块可以被空间MLP所取代,得到的模型仍然表现良好。基于这一观察**,我们假设变压器的一般架构,而不是特定的令牌混频器模块,对模型的性能更为重要**。为了验证这一点,我们故意用令人尴尬的简单空间池算子替换Transformers中的注意力模块,以仅进行基本令牌混合。.........
2022-08-03 10:30:02
2106

原创 MobileVIT学习笔记
轻型卷积神经网络(CNN)实际上是用于移动视觉任务的。他们的空间归纳偏差允许他们在不同的视觉任务中以较少的参数学习表征。然而,这些网络在空间上是局部的。为了学习全局表示,采用了基于自注意力的视觉变换器(VIT)。与CNN不同,VIT是重量级的。在本文中,我们提出了以下问题是否有可能结合CNN和ViTs的优势,为移动视觉任务构建一个重量轻、延迟低的网络?为此,我们介绍了MobileViT,一种用于移动设备的轻型通用视觉transformers。...
2022-07-26 17:47:29
1717

原创 EPSANet学习笔记
EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network最近,研究表明,在深度卷积神经网络中嵌入注意力模块可以有效提高其性能。在这项工作中,提出了一种新的轻量级和有效的注意力方法,称为金字塔挤压注意力(PSA)模块。通过在ResNet的瓶颈块中用PSA模块替换3x3卷积,获得了一种新的表示块,称为有效金字塔挤压注意力(EPSA)。EPSA块可以很容易地作为即插即用组件添加到成熟的主干网络中,并且
2022-07-11 11:44:44
3472

原创 XCiT学习笔记
在自然语言处理取得巨大成功后,transformers最近在计算机视觉方面显示出了很大的前景。transformers底层的自注意力操作产生了所有令牌(即文字或图像块)之间的全局交互,并允许在卷积的局部交互之外对图像数据进行灵活建模。然而,**这种灵活性在时间和内存方面具有二次复杂性,阻碍了对长序列和高分辨率图像的应用**。我们提出了一种“transposed”版本的自注意力,它跨特征通道而不是令牌进行操作,**其中交互基于键和查询之间的互协方差矩阵**。由此产生的 cross-covariance att
2022-07-03 10:29:13
3425

原创 ViT(Vision Transformer)论文笔记
ViT(Vision Transformer)论文笔记(AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)Abstact虽然Transformer架构已经成为自然语言处理任务的事实标准,但它在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件(替换CNN模型的一部分),同时保持其整体结构。我们表明,这种对CNN的依赖是不必要的,直接应用于图像块序列的 pu
2022-04-06 14:35:38
7382

原创 知识蒸馏算法原理
知识蒸馏算法原理“蒸馏”的概念大概就是将本身不够纯净的水通过加热变成水蒸气,冷凝之后就成更纯净的水知识蒸馏同样使用这种原理,将不太纯净的“知识”通过“蒸馏”的方式获得更加有用或者纯净的“知识”体现在神经网络中如下图所示:一个大而臃肿,但知识丰富且高效的“教师网络”,通过转换精准将特定领域的知识传授给“学生网络”,让“学生网络”在某个方面做得很好,并且不那么臃肿,类似“模型压缩”为什么不直接使用教师网络?因为将算法应用在现实生活中很多设备的算力会被限制,因此需要尽可能.
2022-03-21 09:46:37
10675
5
原创 C++ QT程序打包,包含python环境
首先在QTcreator中选择对应的项目,完成release版本的发布(确保调试成功)找到生成release的文件夹所在处,将exe执行所需的附加文件一起复制到一个单独文件夹中,我这里所需的是红框所标注的文件生成需要的dll之后就可以正常启动exe文件,到此QT的准备工作结束。
2024-09-25 16:28:47
1315
原创 MMdetection自定义数据集训练及相关配置
安装完以后,验证一下是否安装正确。如果不报错,有正常结果,代表安装成功。其他的包可以通过注意:中间遇到缺少的库自己安装,比如pytorch,根据自己的硬件环境安装对应的pytorch版本。
2024-01-21 17:17:43
895
6
原创 华为诺亚实验室VanillaNet学习笔记
基础模型的核心理念是“多而不同”,计算机视觉和自然语言处理领域的惊人成功就是例证。然而,优化的挑战和变压器模型固有的复杂性要求范式向简单性转变。在这项研究中,我们介绍了VanillaNet,一个包含优雅设计的神经网络架构。通过避免高深度、快捷方式和复杂的操作(如自我关注),vanillanet令人耳目一新的简洁却非常强大。每一层都被精心制作得紧凑而直接,非线性激活函数在训练后被修剪以恢复原始结构。VanillaNet克服了固有复杂性的挑战,使其成为资源受限环境的理想选择。
2023-05-28 12:54:56
1685
原创 Paddle 模型转 TensorRT加速模型
NVIDIA TensorRT 是一个高性能的深度学习预测库,可为深度学习推理应用程序提供低延迟和高吞吐量。。在这篇文章中,我们会介绍如何使用Paddle-TRT子图加速预测。当模型加载后,神经网络可以表示为由变量和运算节点组成的计算图。如果我们打开TRT子图模式,,Paddle会对模型图进行分析同时使用TensorRT。在模型的。TensorRT除了有常见的OP融合以及显存/内存优化外,还针对性的对OP进行了优化加速实现,降低预测延迟,提升推理吞吐。
2023-05-23 15:35:16
2665
2
原创 DeepStream-test1-python-demo样例
基于知乎博客解释完成:https://zhuanlan.zhihu.com/p/359079725test1样例的整体流程: 首先数据源元件(filesrc)负责从磁盘上读取视频数据,解析器元件(h264parse)负责对数据进行解析,编码器元件(nvv4l2decoder)负责对数据进行解码,流多路复用器元件(nvstreammux)负责批处理帧以实现最佳推理性能,推理元件(nvinfer)负责实现加速推理,转换器元件(nvvideoconvert)负责将数据格式转换为输出显示支持的格式,可视化元件(
2023-03-16 14:14:41
999
原创 EdgeYOLO学习笔记
本文基于最先进的YOLO框架,提出了一种高效、低复杂度、无锚的目标检测器,该检测器可以在边缘计算平台上实时实现。为了有效抑制训练过程中的过拟合,我们开发了一种增强的数据增强方法,并设计了混合随机损失函数来提高小目标的检测精度。在FCOS的启发下,提出了一种更轻、更高效的解耦磁头,在不损失精度的情况下提高了推理速度。
2023-03-05 14:09:33
1344
3
原创 Skip-Attention学习笔记
这项工作旨在提高视觉变换器(ViT)的效率。虽然ViT在每一层中都使用计算成本高昂的自我关注操作,但我们发现这些操作在各层之间高度相关——这是一种关键的冗余,会导致不必要的计算。基于这一观察,我们提出了SKIPAT,这是一种重用来自前一层的自我注意力计算来近似一个或多个后续层的注意力的方法。为了确保跨层重用自我关注块不会降低性能,我们引入了一个简单的参数函数,该函数在计算速度更快的同时,性能优于基线变换器。
2023-02-07 12:20:06
1876
2
原创 MAE-DET学习笔记
在对象检测中,检测主干消耗了整个推理成本的一半以上。最近的研究试图通过借助神经架构搜索(NAS)优化主干架构来降低这一成本。然而,现有的用于对象检测的NAS方法需要数百到数千GPU小时的搜索,这使得它们在快节奏的研究和开发中不切实际。在这项工作中,我们提出了一种新的zero-shotNAS方法来解决这个问题。所提出的方法名为MAE-DET,通过最大熵原理自动设计有效的检测主干,而无需训练网络参数,将架构设计成本降低到几乎零,同时提供最先进的(SOTA)性能。
2023-02-06 22:05:00
1608
1
原创 基于语义分割Ground Truth(GT)转换yolov5图像分割标签(路面积水检测例子)
随着开发者在issues中对 用yolov5做分割任务的呼声高涨,yolov5团队真的在帮开发者解决问题,v6.0版本之后推出了最新的解决方案并配指导教程。之前就有使用改进yolo添加分割头的方式实现目标检测和分割的方法,最新的v7.0版本有了很好的效果,yolov8在分割方面也是重拳出击因此使用yolo进行完成目标检测也是落地项目的一个选择,而且yolo的生态更适合落地,并且实现试试检测。但是目前的公开数据集大部分使用的是其他分割领域模型,当然标签也是适配其他模型。我在做。
2023-01-29 11:18:16
3008
4
原创 基于语义分割Ground Truth(GT)转换yolov5目标检测标签(路面积水检测例子)
语义分割GT数据标签转换为yolov5txt目标检测标签
2023-01-28 17:14:07
4210
16
原创 TensorRT部署神经网络
大佬的TensorRT讲解记录一下优化前优化后融图,多余的kernal去除 速度更快代码TensorRT 后训练量化(PPQ)Quant with TensorRT OnnxParserQuant with TensorRT API
2023-01-16 20:14:35
334
原创 GhostNetV2学习笔记
轻量级卷积神经网络(CNNs)是专为在移动设备上具有较快推理速度的应用而设计的。卷积运算只能捕获窗口区域的局部信息,这阻碍了性能的进一步提高。在卷积中引入自我注意可以很好地捕获全局信息,但会极大地影响卷积的实际速度。在本文中,我们提出了一种硬件友好的注意机制(称为DFC注意),然后提出了一种新的移动应用的GhostNetV2架构。所提出的DFC注意结构基于全连接层,既能在普通硬件上快速执行,又能捕获远距离像素间的依赖关系。
2022-11-21 11:00:55
6706
10
原创 Deformable Attention学习笔记
Transformer 最近在各种视觉任务中表现出卓越的表现。大的(有时甚至是全局的)接受域使Transformer模型比CNN模型具有更高的表示能力。然而,单纯扩大接受野也会引起一些问题。一方面,在ViT中使用密集注意力会导致过多的内存和计算成本,特征会受到超出感兴趣区域的无关部分的影响。另一方面,PVT或Swin Transformer中采用的稀疏注意是数据不可知的,可能会限制建模远程关系的能力。为了解决这些问题,我们提出了一种新的Deformable 自注意模块,
2022-11-19 11:17:39
11787
原创 DEFORMABLE DETR学习笔记
DETR最近被提出,以消除在目标检测中需要许多手工设计的组件,同时展示良好的性能。但由于Transformer注意模块在处理图像特征映射时的局限性,其收敛速度慢,特征空间分辨率有限。为了缓解这些问题,我们提出了Deformable 的DETR,它的注意模块只关注参考点周围的一小部分关键采样点。Deformable 的DETR可以比DETR(特别是在小物体上)获得更好的性能,且训练时间少10倍。在COCO基准上的大量实验证明了我们方法的有效性。代码发布在。
2022-11-16 21:13:36
2716
原创 DETR学习笔记
我们提出了一种新的方法,将目标检测视为直接集预测问题。我们的方法简化了检测流程,有效地消除了许多手工设计的组件的需求,如非最大抑制过程或锚生成(显式编码关于任务的先验知识)。新框架的主要组成部分称为DEtection TRansformer或DETR,是基于集合的全局损耗,通过二部匹配强制进行唯一的预测,以及一个变压器编码器-解码器架构。给定一个固定的学习对象查询的小集合,DETR推理对象和全局图像上下文之间的关系,直接并行输出最终的预测集合(并行的原因是目标检测过程中没有前后顺序,同时并行可以提高速度)
2022-11-14 09:57:10
2081
1
原创 DINO学习笔记
我们提出了DINO(DETR with Improved deNoising anchOr boxes),一种先进的端到端对象检测器。DINO采用对比的去噪训练方法、混合查询选择方法进行锚点初始化和两次前瞻的盒子预测方法,在性能和效率上都优于以往的类detrr模型。DINO在具有ResNet-50骨干和多尺度特征的COCO上实现了12 epochs 49.4AP和24 epochs 51.3AP,与之前最好的类detr模型DN-DETR相比,分别获得了+6.0AP和+2.7AP的显著改进。
2022-11-13 09:54:04
6813
原创 Fast-ParC学习笔记
近年来,T型变压器模型在各个领域都取得了长足的进步。在计算机视觉领域,视觉变压器(ViTs)也成为卷积神经网络(ConvNets)的有力替代品,但由于卷积神经网络和视觉变压器都有各自的优点,所以它们无法取代卷积神经网络。例如,vit善于利用注意机制提取全局特征,而ConvNets则因其强烈的归纳偏差而更有效地建模局部关系。一个自然产生的想法是结合ConvNets和vit的优点来设计新的结构。本文提出了一种新的基本神经网络算子——位置感知圆卷积(ParC)及其加速版Fast-ParC。
2022-11-09 11:17:25
1759
原创 ssFPN学习笔记
特征金字塔网络(FPN)是目标检测模型中考虑目标不同尺度的重要模块。然而,在小物体上的平均精度(AP)相对低于在中型和大型物体上的AP。原因是CNN更深的一层作为特征提取层会造成信息丢失。提出了一种新的FPN尺度序列(S2S^2S2)特征提取方法,以增强小目标的特征信息。我们将FPN结构视为尺度空间,在FPN的水平轴上通过三维卷积提取尺度序列(S2S^2S2)特征。它基本上是一个比例不变的特征,建立在小物体的高分辨率金字塔特征图上。此外,所提出的S2S^2S2。
2022-11-06 20:46:39
1682
3
原创 Hydra Attention学习笔记
虽然transformers已经开始在视觉领域的许多任务中占据主导地位,但将它们应用于大型图像在计算上仍然很困难。一个很大的原因是,自我注意力随标记的数量成二次增长,而标记的数量又随图像的大小成二次增长。对于较大的图像(例如,1080p),网络中超过60%的计算都花在创建和应用注意矩阵上。我们通过引入Hydra Attention向解决这个问题迈出了一步,它是视觉transformers(ViTs)的一种非常高效的注意操作。
2022-10-24 11:07:24
1399
对CNN和Transformer注意力机制的汇总以及注意的具体计算和概念详解,可以作为汇报使用
2023-02-07
mLogcat(1).exe
2020-03-23
EndNoteX9_CHS.zip
2019-06-20
多尺度卷积神经网络的头部姿态估计_梁令羽.pdf
2019-06-20
mnist数据集
2019-02-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人