【计算机视觉 | 图像模型】常见的计算机视觉 image model(CNNs & Transformers) 的介绍合集(一)


图像模型是为下游任务(例如分类和对象检测)构建图像表示的方法。 最流行的子类别是卷积神经网络。 您可以在下面找到不断更新的图像模型列表。

一、Residual Network

残差网络(ResNet)参考层输入来学习残差函数,而不是学习未引用的函数。 残差网络并不希望每几个堆叠层都直接适合所需的基础映射,而是让这些层适合残差映射。 它们将剩余块堆叠在一起形成网络:例如 ResNet-50 有 50 个使用这些块的层。

在这里插入图片描述
有经验证据表明,这些类型的网络更容易优化,并且可以通过显着增加的深度来获得准确性。

在这里插入图片描述

二、Vision Transformer

Vision Transformer(ViT)是一种图像分类模型,它在图像块上采用类似 Transformer 的架构。 将图像分割成固定大小的块,然后将每个块线性嵌入,添加位置嵌入,并将所得向量序列馈送到标准 Transformer 编码器。 为了执行分类,使用了向序列添加额外的可学习“分类标记”的标准方法。

在这里插入图片描述

三、VGG

VGG是一种经典的卷积神经网络架构。 它基于对如何增加此类网络深度的分析。 该网络使用小型 3 x 3 滤波器。 除此之外,网络的特点是简单:唯一的其他组件是池化层和全连接层。

在这里插入图片描述

四、DenseNet

DenseNet 是一种卷积神经网络,它通过密集块利用层之间的密集连接,其中我们将所有层(具有匹配的特征图大小)直接相互连接。 为了保持前馈性质,每个层从所有前面的层获取额外的输入,并将其自己的特征图传递到所有后续层。

在这里插入图片描述

五、VGG-16

六、MobileNetV2

MobileNetV2 是一种卷积神经网络架构,旨在在移动设备上表现良好。 它基于反向残差结构,其中残差连接位于瓶颈层之间。 中间扩展层使用轻量级深度卷积来过滤作为非线性源的特征。 总体而言,MobileNetV2 的架构包含具有 32 个滤波器的初始全卷积层,后面是 19 个残余瓶颈层。

在这里插入图片描述

七、AlexNet

AlexNet 是一种经典的卷积神经网络架构。 它由卷积、最大池化和密集层作为基本构建块组成。 使用分组卷积来适应两个 GPU 上的模型。

在这里插入图片描述

八、EfficientNet

在这里插入图片描述
复合缩放方法的直觉是,如果输入图像更大,那么网络需要更多层来增加感受野,并需要更多通道来捕获更大图像上更细粒度的模式。

除了挤压和激励块之外,基础 EfficientNet-B0 网络还基于 MobileNetV2 的反向瓶颈残差块。

EfficientNet 在 CIFAR-100 (91.7%)、Flowers (98.8%) 和其他 3 个迁移学习数据集上也能很好地迁移并达到最先进的准确率,参数数量少了一个数量级。

在这里插入图片描述

九、Darknet-53

Darknet-53 是一种卷积神经网络,充当 YOLOv3 对象检测方法的骨干网络。 对其前身 Darknet-19 的改进包括使用残差连接以及更多层。

在这里插入图片描述

十、Swin Transformer

Swin Transformer 是视觉变压器的一种。 它通过合并更深层中的图像块(以灰色显示)来构建分层特征图,并且由于仅在每个局部窗口(以红色显示)内计算自注意力,因此具有输入图像大小的线性计算复杂性。 因此,它可以作为图像分类和密集识别任务的通用主干。 相比之下,以前的视觉 Transformer 会生成单个低分辨率的特征图,并且由于全局自注意力的计算,输入图像大小的计算复杂度是二次方的。

在这里插入图片描述

十一、Xception

Xception 是一种卷积神经网络架构,仅依赖于深度可分离的卷积层。

十二、GoogLeNet

GoogLeNet 是一种基于 Inception 架构的卷积神经网络。 它利用 Inception 模块,允许网络在每个块中的多个卷积滤波器大小之间进行选择。 Inception 网络将这些模块堆叠在一起,偶尔使用步长为 2 的最大池化层,将网格的分辨率减半。

在这里插入图片描述

十三、ResNeXt

ResNeXt 重复一个构建块,该构建块聚合了一组具有相同拓扑的转换。 与 ResNet 相比,它暴露了一个新的维度:基数(变换集的大小)C,作为除深度和宽度尺寸之外的重要因素。

在这里插入图片描述
在这里插入图片描述

十四、Detection Transformer

Detr(即检测变压器)是一种基于集合的目标检测器,在卷积主干之上使用变压器。 它使用传统的 CNN 主干来学习输入图像的 2D 表示。 该模型将其展平并用位置编码对其进行补充,然后将其传递到变压器编码器。 然后,变压器解码器将少量固定数量的学习位置嵌入(我们称之为对象查询)作为输入,并另外关注编码器输出。 我们将解码器的每个输出嵌入传递到共享前馈网络(FFN),该网络预测检测(类和边界框)或“无对象”类。

在这里插入图片描述

十五、CSPDarknet53

CSPDarknet53 是一种卷积神经网络和使用 DarkNet-53 进行对象检测的主干网络。 它采用 CSPNet 策略将基础层的特征图划分为两部分,然后通过跨阶段层次结构将它们合并。 使用拆分和合并策略允许更多的梯度流通过网络。

该 CNN 用作 YOLOv4 的骨干网。

在这里插入图片描述

### 常用的计算机视觉模型列表 以下是当前广泛应用于计算机视觉任务的常见模型: #### 传统卷积神经网络 (CNNs) - **AlexNet**: 这是个开创性的深度学习架构,在2012年的ImageNet竞赛中取得了显著的成功[^1]。 - **VGG系列**: VGG16 和 VGG19 是两个经典的变体,以其深层结构和简单的堆叠方式著称。它们在图像分类任务上表现优异。 - **GoogleNet/Inception系列**: GoogleNet引入了 inception module 的概念,允许在网络的不同层间共享计算资源并提升效率。 #### Residual Networks (ResNets) - **ResNet**: 提出了残差连接的概念,解决了非常深的网络中的梯度消失问题。ResNet有多个版本,如 ResNet-50, ResNet-101 等。 #### Dense Convolutional Network (DenseNet) - **DenseNet**: 它通过密集连接的方式进步提升了特征重用的效果,减少了参数数量的同时提高了性能。 #### 特定任务优化模型 对于不同的具体任务,还有些专门设计的模型: - **目标检测**: - **R-CNN系列**: 包括 Faster R-CNN, Mask R-CNN 等,这些模型能够高效地识别图片中的物体位置及其类别[^2]。 - **YOLO (You Only Look Once)**: 实现了种端到端的目标检测方法,速度极快且精度较高。 - **SSD (Single Shot MultiBox Detector)**: 另种单阶段目标检测器,适合实时应用场景。 - **语义分割**: - **U-Net**: 主要用于医学影像分析,具有编码解码结构,能很好地捕捉细节信息。 - **DeepLab系列**: 利用了空洞卷积来扩大感受野而不增加额外参数,适用于复杂的场景解析任务。 #### 新兴的大规模视觉预训练模型 近年来,随着数据集规模增大和技术进步,出现了许多基于大规模自监督或者弱监督训练的大模型: - **Vision Transformers (ViTs)**: 将Transformer成功迁移到CV领域,展示了强大的泛化能力和灵活性。 - **CLIP (Contrastive Language–Image Pre-training)**: 结合自然语言处理与计算机视觉技术,实现了跨模态的理解能力。 ```python import torch from torchvision import models # 加载预定义的ResNet-50模型作为例子 resnet_model = models.resnet50(pretrained=True) print(resnet_model) ``` 以上列举了些主流且有效的计算机视觉模型,实际选择取决于具体的业务需求以及硬件条件等因素。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值