MMLAB学习笔记-DAY2

文章介绍了图像分类的基本流程,包括数据收集、模型定义、训练和预测。重点讨论了卷积神经网络(如AlexNet,VGG-19,GoogLeNet)及其改进,如残差学习。此外,还提到了更强大的分类模型,如通过神经架构搜索和VisionTransformers实现的突破,以及轻量化模型如ConvNeXt和利用可分离卷积降低计算量的技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

图像分类与基础视觉模型

一、问题描述

  • 图像分类:给定一张图片,识别出图片中物体所属的类别
  • 实现步骤:收集数据->定义模型->训练->预测

二、卷积神经网络

  • AlexNet
  • VGG-19
  • GoogLeNet
  • 残差学习:让新增加的层拟合浅层网络与深层网络之间的差异,更容易学习。梯度可以直接回传到浅层网络监督浅层网络的学习

三、更强的分类模型

  • 神经架构搜索:借助强化学习设计网络结构
  • Vision Transformers:使用 Transformer 替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
  • ConvNeXt:将 Swin Transformer 的模型元素迁移到卷积网络中

四、轻量化卷积神经网络

  • 降低模型参数量和计算量的方法:降低通道数、减小卷积核的尺寸
  • GoogLeNet:使用大小不同的卷积核来减小参数量
  • ResNet:使用1*1卷积降低通道数
  • 可分离卷积:将常规卷积分解为逐层卷积和逐点卷积,降低参数量和计算量
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值