【OpenMMLab 实战营打卡-第2课】计算机视觉之图像分类算法基础

深度学习在图像分类中的应用与发展

原创于 2023-02-03 15:53:08 发布 · 211 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #分类 #深度学习

OpenMMLab 专栏收录该内容

14 篇文章

订阅专栏

文章探讨了图像分类问题，从手工特征提取到深度学习的演进，特别是卷积神经网络（如AlexNet,VGG,ResNet）的作用。介绍了轻量化策略如可分离卷积和分组卷积，以及神经结构搜索和Transformer模型在提升模型性能和效率上的贡献。同时，讨论了监督学习和自监督学习在模型训练中的应用。

一. 图像分类的数学表示

1. 提出问题

图像分类问题旨在设计一个函数满足从图像到类别的映射，且该映射关系是符合人类认知的。
在这里插入图片描述

2. 研究难点

对于机器而言，图像内容不过是由一串像素值所组成。人类很难显式地定义一套规则来设计算法，教会机器去理解图片中的内容。
在这里插入图片描述

3. 初步尝试

人类尝试基于手工特征提取和机器学习的方法来从数据中实现图像分类任务，然而手工特征设计仅仅局限于像素层面的计算，丢失了图像的其他维度的信息，基于特征工程的图像分类方法性能到达瓶颈。
在这里插入图片描述

在这里插入图片描述

4. 特征学习

我们使用卷积实现可学习的特征提取，让分类器学习如何产生合适分类的特征，完成对图像数据的一个编码过程。
在这里插入图片描述

二、模型设计

1. 卷积神经网络

AlexNet作为基于深度学习的计算机视觉的开山之作，创新提出了使用卷积网络来实现图像的特征提取，使用了ReLU激活函数提高了收敛速度，并率先开启在GPU上训练大规模神经网络的浪潮。
在这里插入图片描述
VGG使用边界填充Padding来维持空间分辨率不变，并且每隔几层倍增通道数、减半分辨率，提取了更高抽象层级的特征。

ResNet使用了更深更多的网络层数，并且在高级特征和低级特征之间增加了连接，等同于多模型集成，使得损失函数平面更加平滑，更容易收敛到最优解。
在这里插入图片描述

2. 轻量化卷积神经网络

由于模型网络层数和网络结构越来越复杂，需要学习的网络参数也就越来越多，人们尝试寻找一些方法降低参数量和计算量，因此提出了轻量化卷积神经网络。

a.可分离卷积

可分离卷积将常规卷积分解成逐层卷积核和逐点卷积。
在这里插入图片描述

b. 分组卷积

可分组卷积是可分离卷积一种特殊情况，当组数=通道数。
在这里插入图片描述

3. 神经结构搜索

借助强化学习的方法来帮助人类设计合适网络层数和网络连接。
在这里插入图片描述

4. Transformer

将机器翻译中性能优异的Transformer模型移植到图像分类中，引入了注意力机制实现了图像层次化特征。
在这里插入图片描述

三、模型学习

1. 监督学习

监督学习是指从标注好了的数据中学习经验。
在这里插入图片描述

a. 损失函数

图像分类任务中常见的损失函数是交叉熵损失函数。
在这里插入图片描述

b. 梯度下降

常见的优化器有随机梯度下降SGD算法。
在这里插入图片描述

自监督学习

自监督学习在无标注数据集上学习经验，常见的类型有基于代理任务、基于对比学习和基于掩码学习等。
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。