- 博客(38)
- 收藏
- 关注
原创 DeiT
采用蒸馏的方式,使得基于transformer的模型能够学习得到基于CNN模型的一些inductive bias,从而提升对图像类型数据的处理能力。
2025-04-01 10:18:37
540
原创 VT(Visual Transformer)
其中第二个公式中使用了使用非线性和两个逐点卷积,生成的semantic groups。表示前一层的Token,
2025-03-28 10:07:36
347
原创 AugFPN
在FPN基础上提出3个改进点(补偿融合的过程中产生的各种信息缺失):1.Consistent Supervision:用于降低不同scale之间的语义Gap(补偿相邻特征融合后产生的语义信息损失)2.Residual Feature Augmentation:用于在不同尺度的特征融合(fusion, summation)中降低信息损失(补偿最顶层由于融合前降维产生的信息损失)
2025-03-24 11:26:34
1739
原创 CEFPN
1.模型整体借鉴LibraRCNN,去掉F5和P5层,融合P4,P3,P22.采用了残差融合亚像素卷积的方法对C5和C4进行上采样到C4和C3大小,而没有采用传统的线性插值来进行上采样,同时将C4和C3进行1x1的卷积操作,并将这个结果跟亚像素卷积后的进行特征融合,就得到了F4和F3。
2025-03-20 13:51:29
391
原创 BiFPN(EfficientDet)
1.提出一种全新的特征融合方法:重复加权双向特征金字塔网络 BiFPN(改进版的PANet+带权重的特征融合)2.提出一种复合的缩放方法(EfficientNet方法):统一缩放 分辨率、深度、宽度、特征融合网络、box/class网络代码实现如下:三、参考内容EfficientDet: Scalable and Efficient Object Detection
2025-03-20 09:50:32
731
原创 ASFF:Learning Spatial Fusion for Single-Shot Object Detection
在特征金字塔(FPN)中加入自适应结构特征融合模块,使其自适应地学习每个尺度特征图的融合空间权重。
2025-03-19 13:38:58
442
原创 PANet
提出自适应特征池化技术,允许每个候选区域获取所有特征层的信息,避免仅依赖于被人为指定的某个特征层,从而提高了信息的完整性和多样性。:在mask预测分支中增加全连接融合,与原有的FCN路径互补,获取不同视角的预测结果进行融合,进一步提升了mask预测的质量。:通过引入自下而上的路径增强,利用低层中的精确定位信号来增强整个特征金字塔,从而缩短从底层到顶层的信息路径。roi_align以后的候选框特征feature grid需要进行融合,论文采用的是。
2025-03-18 14:26:49
307
原创 Inception V3
1.引入Inception V3 module2.提出CNN网络的四大基本原则:原则一:避免过度降维或者收缩特征bottleneck,特别是在网络浅层,feature map的长宽大小应该随网络加深缓缓减小。原则二:特征越多,收敛越快。相互独立的特征越多,输入的信息分解得越彻底,也印证了赫布原理的fire together, wire together。
2025-03-11 15:18:46
351
原创 VGG:VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
使用两个3x3卷积堆叠代替5x5卷积,提出三个3×3卷积堆叠代替7x7卷积。
2025-03-10 14:57:06
352
原创 GoogLeNet/Inception V1
1.提出Inception模块2.网络最后采用了average pooling来代替全连接层(来自NIN)3.为了避免梯度消失,网络额外增加了2个辅助的softmax用于向前传导梯度。
2025-03-10 13:52:03
331
原创 NIN:Network In Network
1.提出Mlpconv2.使用全局平均池化(Global Average Pooling)代替全连接层。
2025-03-10 10:35:42
220
原创 AlexNet
1.更深的网络结构2.使用ReLU激活函数3.局部响应归一化(LRN)的使用(实际上对模型精度提升影响很小,后面不再使用)4.数据增强和dropout5.大规模分布式学习。
2025-03-07 14:26:31
188
原创 LeNet
2.卷积层的权重共享,相较于全连接层使用更少参数,节省了计算量与内存空间。5.使用双曲线(tanh)或S型(sigmoid)形式的非线性激活函数。1.首次提出卷积神经网络基本框架: 卷积层,池化层,全连接层。3.卷积层的局部连接,保证图像的空间相关性。4.使用映射到空间均值下采样,减少特征数量。
2025-03-07 11:23:39
327
原创 SqueezeNet
提出三个模型优化策略:1.使用 1 x 1 卷积滤波器代替 3 x 3 卷积 (参数量少9倍)2.使用 3x3 滤波器减少输入通道的数量,利用 squeeze layers 实现3.在网络后期进行下采样操作,可以使卷积层有更大的激活特征图。
2025-03-07 10:44:56
451
原创 ShuffleNet V2
提出四条网络结构设计的建议:1.同等通道大小最小化内存访问量2.过量使用组卷积会增加MAC(memory access cost)3.网络碎片化会降低并行度4.不能Element-wise级操作。
2025-03-06 16:39:59
258
原创 MobileNet V3
1.在MobileNet V2 layer中加入SENet layer(Squeeze-and-Excitation Networks)并重新设计了激活函数h-swish2.使用NAS设计出MobileNetV3-large 和 MobileNetV3-small。
2025-03-06 10:39:41
484
原创 MobileNet V2
简单理解就是将Resnet网络中的Residual结构翻转,并引入深度可分离卷积。如下图所示在 ResNet 的 Residuals 结构中,先使用 1 × 1 卷积实现降维,然后通过 3 × 3 卷积,最后通过1×1 卷积实现升维。在 MobileNet V2 中,将降维和升维的顺序进行了调换,并且将 3×3 卷积换为 3×3 深度可分离卷积。
2025-03-05 16:01:50
553
原创 MobileNet V1
深度可分离卷积将传统卷积分为深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)。下面将详细介绍如何将传统卷积分离为深度卷积和逐点卷积以及为什么要引入深度可分离卷积。设输入特征维度为为通道数。标准卷积核的参数为为卷积核大小,为输入的通道数,为输出的通道数。卷积后输出维度为:。在传统卷积过程中每个卷积核对输入特征进行次扫描,每次扫描的深度为(channel),每个通道需要。
2025-03-05 12:16:00
1894
原创 多目标检测(MOT/MTT)综述
是一组N个非空的groundtruth masks;IDS表示属于同一轨道但被分配了不同ID的groundtruth masks。表示测量预测轨迹和groundtruth轨迹的相似程度。表示预测与groundtruth间的空间相似性得分。表示在第t时刻时,目标和假设之间匹配的数量。为所有帧中groundtruth目标的数量;的假设边界框与真实边框之间的距离;表示n条预测轨迹中的真正轨迹数;对精度值进行插值,得到每个n值的。表示整个视频中ID变化的数量;表示整个视频中真实目标的数量。对于一个特定的召回值。
2023-09-18 22:34:21
589
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅