刘若里-优快云博客

原创 ThunderNet（2019➕ICCV）

本文研究了两阶段检测器在实时通用目标检测中的有效性，并提出了一种名为ThunderNet的轻量级两阶段检测器。在主干网络部分，分析了现有轻量级主干网络的缺点，设计了一种专用于目标检测的轻量级主干网络。在检测部分，采用了高效的区域提议网络（RPN）和检测头设计。为了生成更具有区分性的特征表示，设计了上下文增强模块和空间注意力模块。

2025-04-04 07:00:00 824

本文提出了一种名为Cascade R-CNN的新检测框架，旨在解决高质量目标检测问题。现有检测器通常在低IoU阈值下训练，容易产生噪声检测结果；而提高IoU阈值虽能提升质量，但会导致过拟合或推理阶段与输入假设不匹配的问题。Cascade R-CNN通过一系列逐步增加IoU阈值的检测器实现对“接近假阳性”的抑制，同时利用后一阶段的输出重新采样来保证正样本分布均衡，减少过拟合。该架构简单且端到端可训练，在COCO数据集上超越所有单模型检测器，尤其在高评价指标下表现优异。

2025-04-03 07:00:00 850

原创 EfficientDet（2019➕CVPR）

本文研究了目标检测网络架构的设计选择，提出了两种关键优化来提升效率：一是加权双向特征金字塔网络（BiFPN），实现简单快速的多尺度特征融合；二是复合缩放方法，同时均匀调整主干网络、特征网络及边界框/类别预测网络的分辨率、深度和宽度。基于这些优化与更好的主干网络，作者开发了一种新的目标检测器系列EfficientDet，在各种资源限制下均表现出比现有技术更高的效率。

2025-04-02 07:00:00 1000

原创 FCOS（2019 ICCV）

我们提出了一种完全卷积的一阶段目标检测器FCOS，采用逐像素预测的方式进行目标检测，类似于语义分割。与依赖预定义锚框的主流检测器（如RetinaNet、SSD、YOLOv3和Faster R-CNN）不同，FCOS不依赖锚框和候选框，通过消除预定义锚框集，避免了与锚框相关的复杂计算（如训练中的重叠计算）。更重要的是，我们规避了所有与锚框相关的超参数，这些参数对最终检测性能非常敏感。

2025-04-01 07:00:00 747

原创 Mask R-CNN（2017 PAMI）

Mask R-CNN是一种简单灵活的框架，用于实例分割任务。该方法在检测图像中的物体同时，能生成高质量的分割掩模。通过在现有Faster R-CNN的基础上添加预测分割掩模的分支，实现了与目标框识别并行的操作。Mask R-CNN易于训练且仅增加较小的计算开销，运行速度可达5帧每秒。此外，它还能轻松扩展到其他任务，如人体姿态估计。实验表明，Mask R-CNN在COCO数据集的三项挑战任务中均取得最佳结果，包括实例分割、目标检测及人体关键点检测。即使不使用额外技巧，其性能也超越所有先前的单一模型。

2025-03-31 07:00:00 1146

原创 Coordinate Attention（2021➕CVPR）

本文提出了一种名为“坐标注意力”（Coordinate Attention, CA）的新颖轻量级注意力机制，用于移动网络设计。传统通道注意力仅关注通道间关系而忽略位置信息，而CA通过嵌入位置信息扩展了通道注意力，在两个空间方向上分别进行一维特征编码，从而捕获长距离依赖并保留精确的位置信息。实验表明，CA不仅在ImageNet分类任务中表现优异，还能显著提升下游任务如目标检测和语义分割的表现。CA模块易于集成到经典移动网络架构中，且计算开销极小，适用于多种模型规模和权重倍率设置。

2025-03-30 07:00:00 1214

原创 RetinaNet（2017 ICCV）

本文提出了一种名为 Focal Loss 的新损失函数，用于解决密集目标检测中极端前景-背景类别不平衡的问题。传统两阶段检测器虽然准确率高但速度较慢，而一阶段检测器速度快但精度较低。作者发现，一阶段检测器在训练过程中容易被大量简单背景样本主导，导致模型性能不佳。为了解决这一问题，Focal Loss通过在标准交叉熵损失基础上添加一个调制因子1−ptγ(1-p_t)^γ1−ptγ来降低易分类样本的权重，从而将训练焦点集中在难样本上。

2025-03-29 07:00:00 1403

原创 Faster R-CNN（2017 PAMI）

本文提出了一种区域提议网络（RPN），与目标检测网络共享全图像卷积特征，使得区域提议计算几乎无成本。RPN是一种全卷积网络，在每个位置同时预测目标边界和目标得分。通过端到端训练，RPN生成高质量的区域提议，供Fast R-CNN进行检测。实验表明，使用VGG-16模型时，检测系统在GPU上的帧率为5fps，且在PASCAL VOC和MS COCO数据集上达到最先进的检测精度。此外，在ILSVRC和COCO 2015竞赛中，Faster R-CNN和RPN是多个赛道冠军的基础。代码已公开发布。

2025-03-28 07:00:00 789

原创 SSD（2015 CV）

SSD是一种单次多框检测器，通过在卷积特征图的不同位置使用不同长宽比和尺度的默认框来预测目标类别和边界框偏移量。该模型结合多个分辨率的特征图预测，从而自然处理各种大小的目标。与需要候选框的方法相比，SSD完全消除了候选框生成和后续像素或特征重采样阶段，使得训练简单且易于集成到检测系统中。实验结果显示，在PASCAL VOC、COCO和ILSVRC数据集上，SSD的准确率与需额外候选框步骤的方法相当，但速度更快，提供了统一的训练和推理框架。

2025-03-27 07:00:00 1565

原创 YOLO V12（2025 CV）

本文提出了一种名为YOLOv12的新框架，通过引入注意力机制实现了实时目标检测性能的提升。该模型结合了区域注意力模块（A2）和残差高效层聚合网络（R-ELAN），优化了特征聚合效率并减少了计算复杂度。与现有实时检测器相比，YOLOv12在准确率和速度上均有显著改进，例如YOLOv12-N在T4 GPU上的推理延迟仅为1.64毫秒，而其平均精度（mAP）达到40.6%，优于其他版本如YOLOv10-N和YOLOv11-N。

2025-03-26 07:00:00 751

原创 CenterNet（2019 CV）

本文提出了一种新的目标检测方法——CenterNet，它将物体建模为边界框的中心点，通过关键点估计找到这些中心点，并从图像特征中回归得到其他属性如大小、3D位置、方向等。与传统基于边界框的方法相比，CenterNet端到端可微分，更简单、更快且更准确。在MS COCO数据集上，CenterNet实现了最佳的速度-精度权衡，例如使用Hourglass-104网络时，在1.4 FPS下达到45.1%的AP。此外，该方法还适用于3D目标检测和多人姿态估计任务，性能接近或优于复杂多阶段方法，并能实现实时运行。

2025-03-25 07:00:00 1034

原创 YOLO V10（2024 NIPS）

本研究针对实时目标检测任务，提出了一种新的YOLOv10模型，旨在提升性能与效率之间的边界。首先，在后处理阶段引入了无NMS训练的一致双分配策略，显著提高了推理速度并保持了竞争力。其次，在模型架构方面，采用全面优化的方法从效率和准确性两方面改进YOLO组件，大幅减少了计算开销并增强了模型能力。实验结果显示，YOLOv10在多种模型规模下均达到了最先进的性能与效率。例如，YOLOv10-S比RT-DETR-R18快1.8倍，同时参数量和浮点运算数减少约2.8倍；

2025-03-24 07:00:00 1133

原创 Grad-CAM（2017 ICCV）

我们提出了一种名为 Grad-CAM 的技术，用于生成基于卷积神经网络（CNN）模型的视觉解释，使这些模型更具透明性和可解释性。Grad-CAM通过利用目标概念（如分类网络中的“狗”或描述网络中的词序列）流向最终卷积层的梯度，生成粗略的定位图，突出显示图像中预测该概念的重要区域。与先前的方法不同，Grad-CAM适用于多种CNN模型家族，包括全连接层的CNN、结构化输出任务的CNN以及多模态输入任务的CNN，无需架构更改或重新训练。

2025-03-23 07:00:00 929

原创 YOLO V9（2024 ECCV）

本文提出了一种新的辅助监督框架——可编程梯度信息（PGI），用于解决深度神经网络中的信息瓶颈问题及深度监督机制在轻量级模型中的适用性。为实现这一目标，设计了广义高效层聚合网络（GELAN），该网络结合了CSPNet和ELAN的优点，在保持轻量化的同时提高了推理速度与准确性。实验表明，PGI不仅提升了轻量级模型的性能，还增强了深层模型训练过程中的梯度可靠性，使模型能更准确地建立数据与目标之间的关联。

2025-03-22 07:00:00 1269

原创 Transposed convolution（2016 IEEE）

本文提出了一种完全卷积网络（Fully Convolutional Network, FCN），用于像素级别的语义分割任务。研究者们展示了通过端到端训练的卷积网络可以超越之前最好的语义分割结果。关键在于构建“完全卷积”的网络结构，该结构能够处理任意大小的输入并生成相应尺寸的输出，同时保持高效的学习与推理过程。作者们对现有的分类网络（如AlexNet、VGG Net和GoogLeNet）进行了改造，使其成为完全卷积网络，并通过微调将它们的特征表示迁移到分割任务上。

2025-03-21 07:00:00 1354

原创 Switchable Atrous Convolution（2020 CVPR）

本文提出了一种名为DetectoRS的方法，结合了递归特征金字塔（RFP）和可切换空洞卷积（SAC），显著提升了目标检测性能。在 COCO 数据集上，DetectoRS 达到了55.7%的框平均精度（box AP）、48.5%的掩码平均精度（mask AP）和50.0%的全景分割指标（PQ）。RFP通过反馈连接增强特征金字塔网络（FPN），实现“看两次”的机制；SAC则通过不同空洞率的卷积核处理输入特征，提高了模型的适应性和准确性。

2025-03-20 07:00:00 880

原创 Deformable Convolution（2017 ICCV）

本文介绍了两种新模块——可变形卷积和可变形感兴趣区域（RoI）池化，以增强卷积神经网络（CNNs）在几何变换建模方面的能力。这两种模块通过在标准模块中添加偏移量来改变空间采样位置，并从目标任务中学习这些偏移量。新的模块可以轻易替换现有CNN中的相应模块，并可以通过标准反向传播进行端到端训练，从而形成可变形卷积网络。实验结果表明，学习深度CNN中的密集空间变换对于复杂的视觉任务（如物体检测和语义分割）是有效的。

2025-03-19 07:00:00 794

原创 Dilated Convolution（2016 ICLR）

本文提出了一种新的卷积网络模块，专门设计用于密集预测任务。该模块使用膨胀卷积在不损失分辨率的情况下系统地聚合多尺度上下文信息。实验表明，该模块可以显著提高现有语义分割系统的准确性。此外，研究还发现简化从图像分类网络改编而来的密集预测网络可以进一步提高精度。这篇论文《MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS》主要内容可以总结如下：问题背景。

2025-03-18 07:00:00 865

原创 YOLO V7（2023 CVPR）

YOLOv7在5到160帧每秒范围内超越所有已知目标检测器的速度和精度，其在GPU V100上达到30帧每秒或更高时，精度最高为56.8% AP。YOLOv7-E6检测器（56 FPS V100，55.9% AP）在速度和精度上均优于SWIN-L Cascade-Mask R-CNN（9.2 FPS A100，53.9% AP）和ConvNeXt-XL Cascade-Mask R-CNN（8.6 FPS A100，55.2% AP）。

2025-03-17 07:00:00 1736

原创 YOLO V6（2022 CV）

本文介绍了YOLOv6，一种针对工业应用设计的单阶段目标检测框架。YOLOv6通过重新设计网络结构、标签分配、损失函数、数据增强及量化部署等方面，实现了在保持较高精度的同时提高推理速度。YOLOv6采用了自蒸馏策略，并优化了不同大小模型的网络架构。实验表明，YOLOv6-N在Tesla T4 GPU上能达到1234 FPS的吞吐量和35.9%的AP，而YOLOv6-S则达到了43.5%的AP和495 FPS的吞吐量，优于同类其他模型。

2025-03-16 07:00:00 986

原创 YOLO V3（2018 CV）

YOLOv3通过一系列小的设计改进提升了性能，比之前的版本更准确但速度稍慢。它在22毫秒内达到28.2 mAP，与SSD精度相当但快三倍。在旧的mAP检测指标下，YOLOv3在51毫秒内达到57.9 AP50，比RetinaNet类似性能但快3.8倍。YOLOv3采用多尺度预测，使用Darknet-53特征提取器，该网络结构比ResNet-101和152更高效。尽管YOLOv3在处理速度和AP50指标上表现出色，但在高IOU阈值下的表现仍需改进。

2025-03-15 07:00:00 1074

原创 YOLO V4（2020 CV）

YOLOv4通过结合多种创新技术实现了高精度和高速度的目标检测。该模型使用了CSPDarknet53作为骨干网络，并添加了SPP、PANet等模块来增加感受野和特征聚合能力。YOLOv4还引入了Mosaic数据增强、自对抗训练（SAT）、跨批次归一化（CmBN）等新技术，显著提升了检测性能。最终，在MS COCO数据集上达到了43.5%的平均精度（AP），并且在Tesla V100显卡上的实时速度达到约65帧每秒。这些改进使得YOLOv4可以在常规GPU上进行高效训练和部署。

2025-03-14 07:00:00 1095

原创 MobileMamba（2024 CV）

本文提出了一种名为MobileMamba的轻量级视觉模型框架，旨在平衡性能与效率。该模型采用三阶段网络结构，并引入了多感受野特征交互（MRFFI）模块，包括长程小波变换增强Mamba（WTE-Mamba）、多核深度可分离卷积（MK-DeConv）和冗余身份映射消除组件。这些组件增强了高频边缘细节的提取能力。此外，通过知识蒸馏和扩展训练周期等策略进一步提升模型性能。MobileMamba在多个高分辨率下游任务中表现出色，在ImageNet-1K上达到最高83.6%的Top-1准确率，且比现有高效模型快21倍。

2025-03-13 07:00:00 1828

原创【详细版】DETR系列之RT-DETR（2024 CVPR）

本文提出了一种名为RT-DETR的实时端到端目标检测器，解决了现有实时检测器在速度和精度上的问题。RT-DETR通过设计高效的混合编码器处理多尺度特征，并引入IoU感知查询选择来提高性能。实验结果显示，RT-DETR-L在COCO验证集上达到53.0%的平均精度(AP)，并在T4 GPU上达到114帧每秒(FPS)，而RT-DETR-X则达到54.8% AP和74 FPS，优于当前最先进的YOLO检测器。此外，RT-DETR-R50在精度和FPS方面也显著超越了其他同类检测器。

2025-03-12 07:00:00 2223

原创【详尽版】DETR系列之MS-DETR（2024 CVPR）

本文提出了一种名为MS-DETR的方法，通过混合一对一和一对多监督来提高DETR模型的训练效率。与传统DETR仅使用一对一监督不同，MS-DETR在主解码器的对象查询中引入了一对多监督。实验结果显示，该方法显著提升了多个DETR变体的性能，包括DAB-DETR、Deformable DETR及其扩展版本Deformable DETR++。此外，MS-DETR在保持计算和内存效率的同时，进一步提高了与其他采用一对多监督的DETR变体结合时的性能。

2025-03-11 07:00:00 682

原创【详细版】DETR变体之Conditional DETR（2021 ICCV）

本文提出了一种条件DETR方法，通过引入条件交叉注意力机制来加速DETR的训练收敛。该方法从解码器嵌入中学习条件空间查询，用于多头交叉注意力，从而使得每个注意力头可以关注特定区域，如物体边界或内部区域。这减少了对高质量内容嵌入的依赖，从而简化了训练过程。实验结果显示，对于强弱不同的骨干网络，条件DETR比原版DETR快6.7到10倍。

2025-03-10 07:00:00 839

原创 VoVNet V2（2020 CVPR）

本文提出了一种名为CenterMask的实时无锚点实例分割方法，该方法通过在无锚点的一阶段目标检测器FCOS基础上添加空间注意力引导掩码分支来实现。CenterMask使用改进的VoVNetV2作为主干网络，引入残差连接和有效的挤压激励模块（eSE），从而提升模型性能。实验结果表明，CenterMask在COCO数据集上实现了38.3%的掩码平均精度（APmask），优于所有先前的单模型方法，同时速度更快。

2025-03-09 07:00:00 915

原创 StarNet（2024 CVPR）

本研究探讨了“星操作”在神经网络设计中的应用，该操作通过逐元素相乘将输入映射到高维非线性特征空间。研究发现，这种操作在保持紧凑结构的同时，能显著提升模型性能和降低延迟。研究引入了StarNet模型，展示了其在不同任务中优于其他高效模型的表现。实验结果表明，星操作不仅提升了模型的准确性，还增强了其在低延迟设备上的表现。该论文题为《Rewrite the Stars》，主要研究了在网络设计中“星操作”（元素逐个相乘）的潜力。尽管该操作的直观性得到广泛认可，但其理论基础仍然未被深入探讨。

2025-03-08 07:00:00 1439

原创 YOLO V2（2017 CVPR）

本文介绍了YOLO9000，一种实时的目标检测系统，可以识别超过9000种物体类别。YOLOv2通过引入批量归一化、高分辨率分类器和直接位置预测等改进措施，成为最先进的实时目标检测模型。使用多尺度训练方法，YOLOv2可以在不同图像尺寸下运行，提供速度与准确性的权衡。此外，YOLO9000通过联合训练检测和分类数据，利用ImageNet和COCO数据集进行训练，实现了对未见过的物体类别的有效识别，尽管这些类别缺乏标注的检测数据。

2025-03-07 07:00:00 1027

原创 YOLO V1（2016 CVPR）

YOLO是一种新的目标检测方法，将对象检测重新定义为从图像像素到边界框坐标和类别概率的回归问题。YOLO通过单一神经网络直接预测完整图像中的边界框和类别概率，优化整个检测性能。该方法比传统方法更快，实时处理速度可达45帧/秒，且在保持高平均精度的同时实现了实时速度。尽管YOLO在定位准确性上略逊于其他系统，但在减少背景误检方面表现更好，并能更好地泛化到不同领域。论文标题：《You Only Look Once: Unified, Real-Time Object Detection》摘要。

2025-03-06 07:00:00 827

原创 VoVNet（2019 CVPR）

本文提出了一种高效的骨干网络VoVNet，旨在解决DenseNet在实时目标检测中的低效问题。DenseNet通过密集连接保存中间特征，但其线性增加的输入通道导致了内存访问成本增加，从而降低了计算效率和能源效率。VoVNet采用一次聚合（One-Shot Aggregation, OSA）模块，不仅保持了DenseNet多感受野特征的优势，还通过仅在最终特征图上聚合所有特征来克服了密集连接的低效问题。

2025-03-05 07:00:00 1367

原创 MobileViT V3（2022 CV）

本文介绍了一种改进的轻量级模型MobileViTv3，该模型通过优化融合块来提高性能。具体而言，MobileViTv3用1x1卷积层替代了融合块中的3x3卷积层，并将局部特征与全局特征融合，同时在融合块中添加输入特征，形成残差连接。此外，在局部表示块中使用深度可分离卷积层进一步减少参数和计算量。这些改进使得MobileViTv3在保持相似参数和计算量的情况下，实现了更高的精度。

2025-03-04 07:00:00 922

原创 ConvSNP（2022 JMC）

本文提出了一种基于脉冲神经P系统（SNP）机制的新神经元模型——SNP-like神经元，并在此基础上开发了一类新的深度学习模型——ConvSNP模型。SNP-like神经元具有与经典神经元不同的输入输出关系：其输出是非线性函数输入的线性函数。

2025-03-03 07:00:00 1196

原创 MobileViT V2（2023 TMLR）

本文提出了一种可分离自注意力机制，以解决移动视觉变换器（MobileViT）中多头自注意力（MHA）造成的效率瓶颈。现有的MHA方法在处理k个标记时的时间复杂度为O(k²)，这在资源受限的设备上会导致高延迟。新提出的可分离自注意力方法将复杂度降低到O(k)，并通过元素级操作（如加法和乘法）来计算自注意力，从而改善了推理速度。

2025-03-02 07:00:00 1893

原创 MobileViT（2022 ICLR）

本文提出了一种名为MobileViT的轻量级视觉变换器，用于移动设备上的视觉任务。MobileViT结合了卷积神经网络（CNN）和视觉变换器（ViT）的优点，通过将局部处理替换为全局处理来学习全局表示。实验结果表明，在不同任务和数据集上，MobileViT显著优于基于CNN和ViT的网络。在ImageNet-1k数据集上，MobileViT在约600万参数下达到78.4%的准确率，比MobileNetv3和DeIT分别高出3.2%和6.2%。

2025-03-01 07:00:00 1199

原创 MobileOne（2023 CVPR）

本文介绍了一种名为MobileOne的新架构，该架构在iPhone12上运行时间小于1毫秒，并且在ImageNet上达到了75.9%的顶级准确率。研究分析了不同设计选择对移动设备延迟的影响，发现激活函数、多分支结构等都会显著影响延迟。MobileOne通过引入轻量级的过度参数化分支，在保持低延迟的同时提升了准确性。与现有高效模型相比，MobileOne在图像分类、目标检测和语义分割等任务上均表现出色，尤其是在延迟和精度方面有显著改进。

2025-02-28 07:00:00 1159

原创 FasterNet（2023 CVPR）

本研究提出了一种新的高效神经网络架构 FasterNet 及其基础算子部分卷积（PConv），旨在通过提高每秒浮点操作数（FLOPS）来降低延迟，同时减少浮点操作数（FLOPs）。研究发现，许多现有网络在减少FLOPs的同时未能有效提升FLOPS，导致实际性能未达预期。本文通过重新审视现有的深度可分离卷积（DWConv），指出其频繁的内存访问是造成低FLOPS的主要原因。PConv通过仅对部分输入通道进行卷积计算，显著减少冗余计算和内存访问，提升了FLOPS。

2025-02-27 10:40:16 1122

原创 TinyNet（2020 NIPS）

本文研究了如何通过调整分辨率、深度和宽度来缩小神经网络模型。与之前的EfficientNet不同，本文发现对于小型网络而言，分辨率和深度比宽度更为重要。基于这一观察，作者提出了一种新的公式，用于通过随机生成多个模型并验证它们来探索性能与这三个维度之间的关系。该公式首先扭曲分辨率和深度，然后根据FLOPs约束确定宽度。实验结果表明，使用新公式生成的小型网络（如TinyNet）在保持高性能的同时，计算成本更低。

2025-02-27 07:00:00 1857

原创 MnasNet（2018 CVPR）

本文提出了一种自动化神经架构搜索方法MnasNet，旨在设计适用于移动设备的资源高效卷积神经网络模型。该方法通过结合平台感知的真实推理延迟信息，并采用新型分层搜索空间来优化模型的准确性和延迟之间的平衡。实验结果显示，MnasNet在多个视觉任务上表现优异，例如在ImageNet分类任务中，MnasNet在Pixel手机上的延迟仅为78毫秒，准确率达到75.2%，比MobileNetV2快1.8倍且准确率高0.5%，比NASNet快2.3倍且准确率高1.2%。

2025-02-26 07:00:00 1122

原创 SqueezeNet（2016 ICLR）

本文提出了一种名为SqueezeNet的小型卷积神经网络(CNN)，其在ImageNet数据集上达到了与AlexNet相当的准确率，但参数量减少了50倍。此外，通过模型压缩技术，SqueezeNet可以被压缩到小于0.5MB，比AlexNet小510倍。SqueezeNet主要由Fire模块构成，该模块包含挤压层和扩展层，通过使用1x1滤波器减少参数量，并通过延迟下采样来提高分类准确性。实验表明，SqueezeNet不仅具有高效的小模型优势，还适用于硬件部署及频繁更新场景。

2025-02-25 07:00:00 1196

深度学习中用于提升CNN性能的CBAM注意力机制（2018 ECCV）

内容概要：本文介绍了卷积块注意力模块(CBAM)，一种应用于卷积神经网络(CNN)的新方法。CBAM通过引入轻量级的注意力机制，在通道和空间维度上增强表示能力，显著提升了各类CNN网络的效果。具体而言，CBAM首先利用平均池化和最大池化获取通道注意力图，强调或抑制不相关特征；再生成空间注意力图决定特征的空间位置分布。实验证明，这一机制在多个视觉任务和数据集上带来了准确性和可解释性的提高。此外，文章还包括大量详尽实验以验证模型设计的有效性和通用性。适合人群：从事机器学习特别是计算机视觉领域的研究人员和技术开发者，以及希望深入了解深度学习和CNN改进的学术爱好者。使用场景及目标：适用于需要增强模型表现力的各种图像处理任务。具体应用场景包括但不限于分类任务（如ImageNet）、目标检测（如MS COCO、VOC2007）。旨在通过对重要视觉特性有更高敏感度从而改善结果的质量。阅读建议：对于有兴趣探索深度学习新技术的人士来说，此文提供的见解有助于理解现代AI技术背后的思考方式，并启发对未来模型开发方向的理解和创新实践。

2025-01-22

SENet: 利用Squeeze-and-Excitation块进行通道间依赖性建模与特征重校准的卷积神经网络

内容概要：本文介绍了SENet及其核心组件Squeeze-and-Excitation（SE）块的设计理念和实现方法。论文针对传统卷积神经网络(CNN)中存在的通道间相互依赖性未得到显式建模的问题，提出了通过SE块显式建模通道依赖性，提高网络表示能力的方法。SE块的核心操作分为两步：“挤压”（Squeeze），利用全局平均池化聚集空间维度的信息，生成全局特征描述符；“激励”（Excitation），利用生成的描述符生产每通道调制权重，并用于重新校准特征图。该结构简单且通用，能在已有先进CNN架构中应用，带来显著性能提升，同时计算开销较小。文章通过广泛的实验证明SENet在多个任务上的有效性，如ImageNet、场景分类和目标检测任务，并在ILSVRC 2017比赛中取得优异成绩。适合人群：熟悉深度学习基础知识、对卷积神经网络有一定了解的科研人员和技术从业者。使用场景及目标：本论文适用于那些想要深入理解或改进卷积神经网络设计的人士，旨在探讨如何通过增强卷积网络的能力提高视觉任务性能。其他说明：SENet引入了一种新颖的网络架构设计思路，通过在现有模型基础上叠加轻量级SE模块改善表现，特别强调了通道依赖关系的建模，这对后续深度学习发展产生了深远影响。研究不仅验证了该方法的有效性，还通过对比实验分析了各个成分的作用，如挤压与激励的效果差异等。

2025-01-22

深度学习中ResNet深度残差网络解决网络退化问题及目标检测应用

内容概要：本文详细介绍了ResNet（深度残差网络）的核心原理及其在图像识别和目标检测领域的创新应用。ResNet通过引入残差模块解决了深层网络存在的网络退化、梯度消失等问题。文中解析了残差模块的设计思想，即采用跳跃连接（shortcut connection），将输入直接传递到输出，并拟合残差而不是实际输出。此外，还探讨了ResNet在网络架构设计上的优点以及其数学理论基础，对比展示了ResNet相较于传统线性结构网络的优势。同时涵盖了ResNet在目标检测任务中的表现，尤其是在不同的数据集上取得的成绩。适合人群：计算机视觉研究者、从事深度学习尤其是图像识别方向的专业技术人员和学生。使用场景及目标：理解和实现深度残差网络，以应对复杂图像分类任务，提高目标检测模型精度，研究改进深层神经网络中存在的退化、过拟合等难题的新思路。其他说明：ResNet是由何恺明等人提出并在2015年获得多项国际竞赛冠军的技术成果之一。其研究结果发表在计算机视觉顶级会议CVPR 2016年会上，并被评为最佳论文奖。对于希望深入了解现代CNN发展脉络的人来说，这是一个不可错过的重要文献。

2025-01-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人