AI实战营-Day1 图像分类与基础视觉模型

本文探讨了图像分类问题,详细介绍了卷积神经网络(CNN)的挑战与残差学习,包括ResNet中的残差模块。接着,讨论了轻量化CNN的策略,如可分离卷积和分组卷积。最后,引入了VisionTransformers,特别是SwinTransformer,这是一种最新的Transformer架构在计算机视觉领域的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


一、图像分类

  1. 问题的数学表示

在这里插入图片描述

  1. 结果的数学表示
    在这里插入图片描述

二、卷积神经网络

  1. 模型层数增加到一定程度后,卷积退化为恒等映射,导致深层网络与浅层网络效果相同

在这里插入图片描述

  1. 残差学习的基本思路

在这里插入图片描述
3. ResNet 中的两种残差模块

在这里插入图片描述

  1. 残差使收敛到局部/全局最优解更容易

在这里插入图片描述


三、轻量化卷积神经网络

  1. 卷积的参数量

在这里插入图片描述

  1. 卷积的计算量(乘加次数)

在这里插入图片描述

  1. 降低模型参数量和计算量的方法

在这里插入图片描述

  1. 可分离卷积

在这里插入图片描述

  1. ResNeXt 中的分组卷积

在这里插入图片描述


四、Vision Transformers

  1. 注意力机制 Attention Mechanism

在这里插入图片描述

  1. 实现 Attention

在这里插入图片描述

  1. 多头注意力 Multi-head (Self-)Attention

在这里插入图片描述

  1. Vision Transformer (2020)

在这里插入图片描述

  1. Swin Transformer (ICCV 2021 best paper)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值