- 博客(27)
- 收藏
- 关注
原创 Poly Kernel Inception Network for Remote Sensing Detection
与传统的kb× b二维深度卷积相比,我们可以用几个一维深度卷积核实现类似的效果,参数约简为kb/2。其次,条形卷积可以方便地识别和提取细长形状物体的特征,比如桥梁。为了增加CAA模块在其所属的PKI块越深时的接受域,我们设置kb=11+2×l,即我们计算内核大小kb作为PKI块深度n的函数。以前的方法:通过扩大主干的空间接受野来解决这些挑战,要么通过大核卷积,要么通过扩张卷积。PKI模块是一个初始化风格的模块,它包括一个小核卷积来获取本地信息,然后是一组并行深度卷积来捕获跨多个尺度的上下文信息。
2024-04-01 10:17:09
2592
原创 Swin Transformer
Swin Transformer是 ICCV 21的最佳论文,它之所以能有这么大的影响力主要是因为在 ViT 之后,Swin Transformer通过在一系列视觉任务上的强大表现 ,进一步证明了Transformer是可以在视觉领域取得广泛应用的。
2023-07-16 17:36:31
267
原创 VIT transformer详解
虽然 Transformer 架构已成为 NLP 任务的事实标准,但它在 CV 中的应用仍然有限。在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构。我们证明了这种对 CNN的依赖是不必要的,直接应用于图像块序列 (sequences of image patches) 的纯 Transformer 可以很好地执行 图像分类 任务。
2023-07-11 20:37:57
2067
1
原创 Transformer
效果好可以并行训练,速度快很好地解决了长距离依赖的问题缺点:1.完全基于self-attention,对于词语位置之间的信息有一定的丢失,虽然加入了positional encoding来解决这个问题,但也还存在着可以优化的地方。
2023-07-09 16:46:47
501
原创 机器视觉概述
机器视觉,是指使用智能机器代替人类视觉进行物体和环境识别,通过相机采集图像,并使用软件算法进行分析和理解,最终使机器具有和生物视觉系统类似的场景感知能力。
2023-07-02 16:07:38
212
原创 Attention is All You Need(Transformer入门)
谷歌团队2018提出的用于生成词向量的BERT算法在NLP的11项任务中取得了非常出色的效果,堪称2018年深度学习领域最振奋人心的消息。而BERT算法又是基于Transformer,Transformer又是基于attention机制。目前大部分attention模型都是依附于Encoder-Decoder框架进行实现,在NLP中Encoder-Decoder框架主要被用来处理序列-序列问题。文本摘要,输入一篇文章(序列数据),生成文章的摘要(序列数据)
2023-07-02 10:24:04
270
原创 EfficientDet(BiFPN)(CVPR 2020)
高效的双向跨尺度连接加权特征图融合图2:特征网络设计-(a)FPN引入自上而下的路径以融合从第3级到第7级(P3 - P7)的多尺度特征;(B)PANet在FPN之上添加了额外的自下而上的途径;(c)NAS-FPN使用神经架构搜索来找到不规则的特征网络拓扑,然后重复应用相同的块;(d)是我们的具有更好的准确性和效率权衡的BiFPN。首先,删去那些只有一个输入的节点,因为如果一个节点只有一个输入没有特征融合的过程,那么它对旨在融合不同特征的网络的贡献就会比较小。
2023-05-18 16:45:11
882
1
原创 跑模型时GPU和CPU相关问题
当没有设置好CPU的线程数时,Volatile GPU-Util是在反复跳动的,0% → 95% → 0%。这其实是GPU在等待数据从CPU传输过来,当从总线传输到GPU之后,GPU逐渐开始计算,利用率会突然升高,但是GPU的算力很强大,0.5秒就基本能处理完数据,所以利用率接下来又会降下去,等待下一个batch的传入。利用率的主要瓶颈在CPU的数据吞吐量上面.
2023-05-14 20:03:12
422
原创 正则表达式
w 匹配任意一个文字字符,包括大小写字母、数字、下划线,等价于表达式 [ a-zA-Z0-9_ ]\s 匹配任意一个空白字符,包括空格、tab、换行符等,等价于表达式 [\t\n\r\f\v]反斜杠也可以用在方括号里面,比如 [\s,.] 表示匹配 : 任何空白字符, 或者逗号,或者点。\S 匹配任意一个非空白字符,等价于表达式 [^ \t\n\r\f\v]\D 匹配任意一个不是0-9之间的数字字符,等价于表达式 [^0-9]\W 匹配任意一个非文字字符,等价于表达式 [^a-zA-Z0-9_]
2023-04-25 20:10:22
82
原创 CVPR 2021 Coordinate Attentiom
论文中,作者通过将位置信息嵌入到通道注意力中来为移动网络提出一种新的注意力机制,称之为“坐标注意力”。与通过 2D 全局池化将特征张量转换为单个特征向量的通道注意力不同,坐标注意力将通道注意力分解为两个一维特征编码过程,分别沿两个空间方向聚合特征。然后将得到的特征图单独编码成一对方向感知和位置敏感的注意力图,这些图可以互补地应用于输入特征图以增强感兴趣对象的表示。进行concat后生成如下图所示的特征图,然后进行F1操作(利用1*1卷积核进行降维,如SE注意力中操作)和激活操作,生成特征图。
2023-04-24 20:10:01
193
原创 将Python代码打包成exe可执行文件
模块关联都会打包,但是,如果遇到那种动态导入模块的代码时,它是无法找到。1、在mac系统上开发(为他这个程序创建一个虚拟环境)解决办法:在.spac文件中加入包。7、安装pyinstaller。4、打开win虚拟机。方法二:frozen。
2023-04-24 15:57:51
381
原创 DOI号解析
具体来说,s00127表示这个论文所属的期刊的缩写,018表示论文发表的年份,1605-5表示论文的页码。具体来说,j.jclepro表示这个论文所属的期刊的缩写,2019.06表示论文发表的年份和月份,266表示论文的页码。具体来说,j.jclepro表示这个论文所属的期刊的缩写,2020表示论文发表的年份,120910表示论文的页码。具体来说,s41598表示这个论文所属的期刊的缩写,018表示论文发表的年份,20003-x表示论文的页码。不同的DOI注册机构可能会有不同的前缀,但都是以10.开头的。
2023-04-20 10:30:10
18105
原创 CVPR 2023 | 最新主干FasterNet
以前的研究:1、为了设计快速神经网络,许多工作都集中在减少浮点运算(FLOPs)的数量上。作者观察到FLOPs的这种减少不一定会带来延迟的类似程度的减少。这主要源于每秒低浮点运算(FLOPS)效率低下。问题:1、FLOPS低主要是由于运算符的频繁内存访问指出了实现更高FLOPS的重要性,而不仅仅是为了更快的神经网络而减少FLOPs。作者设计了一种的新的运算符,该运算符可以在减少FLOPs的情况下保持高FLOPS。
2023-04-17 10:51:32
1458
原创 RepVGG网络
作者单位:清华大学(丁贵广团队), 旷视科技(孙剑等人), 港科大, 阿伯里斯特威斯大学提出了一种简单而强大的卷积神经网络结构,其推理阶段是仅由3*3卷积和RELU组成VGG风格的结构,训练阶段则具有多分支结构。这种训练-推理的解耦是利用一种叫做“重参数化(re-parameterization)”的技术实现的,因此,该网络被称为RepVGG。在ImageNet上能够达到超过80%的top-1准确率,这是直通式网络第一次达到如此高的性能。
2023-04-10 15:24:41
423
原创 YOLO综述
YOLO已经成为机器人、无人驾驶汽车和视频监控应用的中央实时目标检测系统。我们对YOLO的演化进行了全面的分析,考察了从原始YOLO到YOLOv8的每一次迭代中的创新和贡献。我们首先介绍了标准度量和后处理;然后,我们讨论了每个模型在网络架构和训练技巧方面的主要变化。最后,我们总结了YOLO发展中的重要教训并对其未来进行了展望,突出了增强实时目标检测系统的潜在研究方向实时目标检测已经成为许多应用中的关键组成部分,涵盖了自动驾驶、机器人、视频监控和增强现实等各个领域。
2023-04-09 10:30:53
3846
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人