自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 DETR

1.将transformer用于目标检测任务2.实现e2e(end-to-end)的目标检测。

2025-04-02 10:42:03 401

原创 DeiT

采用蒸馏的方式,使得基于transformer的模型能够学习得到基于CNN模型的一些inductive bias,从而提升对图像类型数据的处理能力。

2025-04-01 10:18:37 540

原创 Bottleneck Transformers

在CNN中加入引入multi-head self-attention。

2025-03-28 13:32:05 391

原创 VT(Visual Transformer)

其中第二个公式中使用了使用非线性和两个逐点卷积,生成的semantic groups。表示前一层的Token,

2025-03-28 10:07:36 347

原创 Vision Transformer(ViT)

将图像划分为一个个patch,每个patch块可以看做是一个token。

2025-03-27 09:42:38 262

原创 Transformer

Transformer是seq2seq模型,分为Encoder(下图左侧)和Decoder(下图右侧)两大部分。

2025-03-25 15:01:00 1200

原创 AugFPN

在FPN基础上提出3个改进点(补偿融合的过程中产生的各种信息缺失):1.Consistent Supervision:用于降低不同scale之间的语义Gap(补偿相邻特征融合后产生的语义信息损失)2.Residual Feature Augmentation:用于在不同尺度的特征融合(fusion, summation)中降低信息损失(补偿最顶层由于融合前降维产生的信息损失)

2025-03-24 11:26:34 1739

原创 FPN(Feature Pyramid Network)

利用卷积神经网络在图片金字塔上进行特征提取,可以构建出特征金字塔。

2025-03-21 13:57:20 419

原创 NAS-FPN

FPN中引入NAS。

2025-03-20 16:03:03 399

原创 CEFPN

1.模型整体借鉴LibraRCNN,去掉F5和P5层,融合P4,P3,P22.采用了残差融合亚像素卷积的方法对C5和C4进行上采样到C4和C3大小,而没有采用传统的线性插值来进行上采样,同时将C4和C3进行1x1的卷积操作,并将这个结果跟亚像素卷积后的进行特征融合,就得到了F4和F3。

2025-03-20 13:51:29 391

原创 BiFPN(EfficientDet)

1.提出一种全新的特征融合方法:重复加权双向特征金字塔网络 BiFPN(改进版的PANet+带权重的特征融合)2.提出一种复合的缩放方法(EfficientNet方法):统一缩放 分辨率、深度、宽度、特征融合网络、box/class网络代码实现如下:三、参考内容EfficientDet: Scalable and Efficient Object Detection

2025-03-20 09:50:32 731

原创 ASFF:Learning Spatial Fusion for Single-Shot Object Detection

在特征金字塔(FPN)中加入自适应结构特征融合模块,使其自适应地学习每个尺度特征图的融合空间权重。

2025-03-19 13:38:58 442

原创 PANet

提出自适应特征池化技术,允许每个候选区域获取所有特征层的信息,避免仅依赖于被人为指定的某个特征层,从而提高了信息的完整性和多样性。:在mask预测分支中增加全连接融合,与原有的FCN路径互补,获取不同视角的预测结果进行融合,进一步提升了mask预测的质量。:通过引入自下而上的路径增强,利用低层中的精确定位信号来增强整个特征金字塔,从而缩短从底层到顶层的信息路径。roi_align以后的候选框特征feature grid需要进行融合,论文采用的是。

2025-03-18 14:26:49 307

原创 RepLKNet

1.在下游任务中超大卷积核(论文中使用的最大卷积核是31x31)比小卷积核更有效2.大卷积核卷积网络的5条设计指导原则。

2025-03-17 14:44:34 381

原创 ReMLP

在FC中嵌入Conv强化“MLP”对局部和全局信息的提取能力。

2025-03-14 14:18:29 421

原创 DBB(Diverse Branch Block)

提出了 DBB通用构建块,并总结了六种转换来将 DBB 转换为单个卷积。

2025-03-14 10:52:13 414

原创 RepVGG

使用重参数化使得VGG类极简模型达到ResNet的精度。

2025-03-14 09:28:11 403

原创 ResRep

使用重参数化(Rep)和梯度置零(Res)将“记忆”与“遗忘”解耦。

2025-03-13 14:38:14 423

原创 ACNet

将单个的3x3卷积拆分为3x3卷积,1x3卷积,3x1卷积的和。

2025-03-13 10:14:44 288

原创 Xception

使用了深度可分离卷积(Depthwise Separable Convolution)来替代传统的卷积操作。

2025-03-12 15:16:37 266

原创 SENet

提出SE(Sequeeze-and-Excitation)block。

2025-03-12 14:00:30 328

原创 DenseNet

密集连接,使得某层的输入除了包含前一层的输出外还包含前面所有层的输出。

2025-03-12 12:03:18 183

原创 ResNeXt

提出ResNeXt block。

2025-03-12 09:47:13 254

原创 Inception V3

1.引入Inception V3 module2.提出CNN网络的四大基本原则:原则一:避免过度降维或者收缩特征bottleneck,特别是在网络浅层,feature map的长宽大小应该随网络加深缓缓减小。原则二:特征越多,收敛越快。相互独立的特征越多,输入的信息分解得越彻底,也印证了赫布原理的fire together, wire together。

2025-03-11 15:18:46 351

原创 Inception V2

每层卷积后加入Batch Normalization。

2025-03-11 14:14:34 211

原创 ResNet

1.提出残差(residual)结构2.使用Batch Normalization加速训练。

2025-03-11 09:49:32 202

原创 VGG:VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

使用两个3x3卷积堆叠代替5x5卷积,提出三个3×3卷积堆叠代替7x7卷积。

2025-03-10 14:57:06 352

原创 GoogLeNet/Inception V1

1.提出Inception模块2.网络最后采用了average pooling来代替全连接层(来自NIN)3.为了避免梯度消失,网络额外增加了2个辅助的softmax用于向前传导梯度。

2025-03-10 13:52:03 331

原创 NIN:Network In Network

1.提出Mlpconv2.使用全局平均池化(Global Average Pooling)代替全连接层。

2025-03-10 10:35:42 220

原创 AlexNet

1.更深的网络结构2.使用ReLU激活函数3.局部响应归一化(LRN)的使用(实际上对模型精度提升影响很小,后面不再使用)4.数据增强和dropout5.大规模分布式学习。

2025-03-07 14:26:31 188

原创 LeNet

2.卷积层的权重共享,相较于全连接层使用更少参数,节省了计算量与内存空间。5.使用双曲线(tanh)或S型(sigmoid)形式的非线性激活函数。1.首次提出卷积神经网络基本框架: 卷积层,池化层,全连接层。3.卷积层的局部连接,保证图像的空间相关性。4.使用映射到空间均值下采样,减少特征数量。

2025-03-07 11:23:39 327

原创 SqueezeNet

提出三个模型优化策略:1.使用 1 x 1 卷积滤波器代替 3 x 3 卷积 (参数量少9倍)2.使用 3x3 滤波器减少输入通道的数量,利用 squeeze layers 实现3.在网络后期进行下采样操作,可以使卷积层有更大的激活特征图。

2025-03-07 10:44:56 451

原创 ShuffleNet V2

提出四条网络结构设计的建议:1.同等通道大小最小化内存访问量2.过量使用组卷积会增加MAC(memory access cost)3.网络碎片化会降低并行度4.不能Element-wise级操作。

2025-03-06 16:39:59 258

原创 ShuffleNet V1

分组卷积加入通道随机组合重排。

2025-03-06 14:32:11 271

原创 MobileNet V3

1.在MobileNet V2 layer中加入SENet layer(Squeeze-and-Excitation Networks)并重新设计了激活函数h-swish2.使用NAS设计出MobileNetV3-large 和 MobileNetV3-small。

2025-03-06 10:39:41 484

原创 MobileNet V2

简单理解就是将Resnet网络中的Residual结构翻转,并引入深度可分离卷积。如下图所示在 ResNet 的 Residuals 结构中,先使用 1 × 1 卷积实现降维,然后通过 3 × 3 卷积,最后通过1×1 卷积实现升维。在 MobileNet V2 中,将降维和升维的顺序进行了调换,并且将 3×3 卷积换为 3×3 深度可分离卷积。

2025-03-05 16:01:50 553

原创 MobileNet V1

深度可分离卷积将传统卷积分为深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)。下面将详细介绍如何将传统卷积分离为深度卷积和逐点卷积以及为什么要引入深度可分离卷积。设输入特征维度为为通道数。标准卷积核的参数为为卷积核大小,为输入的通道数,为输出的通道数。卷积后输出维度为:。在传统卷积过程中每个卷积核对输入特征进行次扫描,每次扫描的深度为(channel),每个通道需要。

2025-03-05 12:16:00 1894

原创 多目标检测(MOT/MTT)综述

是一组N个非空的groundtruth masks;IDS表示属于同一轨道但被分配了不同ID的groundtruth masks。表示测量预测轨迹和groundtruth轨迹的相似程度。表示预测与groundtruth间的空间相似性得分。表示在第t时刻时,目标和假设之间匹配的数量。为所有帧中groundtruth目标的数量;的假设边界框与真实边框之间的距离;表示n条预测轨迹中的真正轨迹数;对精度值进行插值,得到每个n值的。表示整个视频中ID变化的数量;表示整个视频中真实目标的数量。对于一个特定的召回值。

2023-09-18 22:34:21 589

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除