- 博客(8)
- 收藏
- 关注
原创 披着transformer皮的CNN:SwinTransformer
提出一个Swin Transformer, 可以用作骨干网络,直接把transformer用在CV领域,有挑战:1.多尺度物体2.序列长度太长。基于挑战,提出了hierarchical transformer,使用一种一种窗口的方法,现在自注意力在窗口内算,seq很短,而且通过移动窗口,上下层之间会产生交互(cross-window connection),这个层级窗口可以提供各个尺度的信息,而且他的复杂度是随着分辨率提高线性增长(不是平方)
2023-04-03 11:12:54
243
原创 基于transformer物体检测:DETR
把物体检测的任务直接看成集合预测的任务,把目标检测做成端到端框架,不再需要先验知识(去掉anchor、NMS之类)具体的:提出一种目标函数,使用二分图匹配,让模型输出独一无二的预测;使用编解码结构;解码器加一个learned object queries。
2023-04-03 11:12:11
332
原创 视觉中的transformer:ViT
transformer已经是NLP的标准。但是在cv领域用的很少,视觉里一般是和cnn一起用或者把某些conv替换成transformer(整体还是CNN)本篇文章证明纯的transformer直接在图片分类上也做得很好:在大量数据集上进行预训练的前提上,迁移到小数据集(作者说ImageNet是小数据集-_-)上也很好。(1)z0是输入=xp是patch, x·E是全连接,xclss是拼接的cls,然后加pos编码(2)zt本层输出=MSA多头注意力(LN(zt-1是本层输入))+zt-1是残差。
2023-04-03 11:09:12
296
原创 撑起CV的半边天:ResNet学习笔记
深的神经网络很难训练,我们用残差学习的框架使其容易把层作为学习残差函数相对于层输入的方法,而不是unreferenced function容易训练、精度高对视觉来说,深度是很重要的。
2023-04-03 11:07:43
183
1
原创 AlexNet学习笔记
我们训练了很大很深的CNN,有60M个参数和650K个神经元。用了GPU的实现。为了减少过拟合,用到了dropout的方法。
2023-04-03 11:06:48
142
1
原创 QT保存图片效率低的解决
做项目的时候有个需求:每次计算保存一个结果图片,往前测试和使用的时候数据量都比较小顶多十几个,今天稍微加大了点数据,发现到五十几个的时候就卡成了PPT,这里记录一下问题排查和解决的途径。
2022-11-08 10:41:44
972
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人