一. 图像分类的数学表示
1. 提出问题
图像分类问题旨在设计一个函数满足从图像到类别的映射,且该映射关系是符合人类认知的。
2. 研究难点
对于机器而言,图像内容不过是由一串像素值所组成。人类很难显式地定义一套规则来设计算法,教会机器去理解图片中的内容。
3. 初步尝试
人类尝试基于手工特征提取和机器学习的方法来从数据中实现图像分类任务,然而手工特征设计仅仅局限于像素层面的计算,丢失了图像的其他维度的信息,基于特征工程的图像分类方法性能到达瓶颈。
4. 特征学习
我们使用卷积实现可学习的特征提取,让分类器学习如何产生合适分类的特征,完成对图像数据的一个编码过程。
二、模型设计
1. 卷积神经网络
AlexNet作为基于深度学习的计算机视觉的开山之作,创新提出了使用卷积网络来实现图像的特征提取,使用了ReLU激活函数提高了收敛速度,并率先开启在GPU上训练大规模神经网络的浪潮。
VGG使用边界填充Padding来维持空间分辨率不变,并且每隔几层倍增通道数、减半分辨率,提取了更高抽象层级的特征。
ResNet使用了更深更多的网络层数,并且在高级特征和低级特征之间增加了连接,等同于多模型集成, 使得损失函数平面更加平滑,更容易收敛到最优解。
2. 轻量化卷积神经网络
由于模型网络层数和网络结构越来越复杂,需要学习的网络参数也就越来越多,人们尝试寻找一些方法降低参数量和计算量,因此提出了轻量化卷积神经网络。
a.可分离卷积
可分离卷积将常规卷积分解成逐层卷积核和逐点卷积。
b. 分组卷积
可分组卷积是可分离卷积一种特殊情况,当组数=通道数。
3. 神经结构搜索
借助强化学习的方法来帮助人类设计合适网络层数和网络连接。
4. Transformer
将机器翻译中性能优异的Transformer模型移植到图像分类中,引入了注意力机制实现了图像层次化特征。
三、模型学习
1. 监督学习
监督学习是指从标注好了的数据中学习经验。
a. 损失函数
图像分类任务中常见的损失函数是交叉熵损失函数。
b. 梯度下降
常见的优化器有随机梯度下降SGD算法。
自监督学习
自监督学习在无标注数据集上学习经验,常见的类型有基于代理任务、基于对比学习和基于掩码学习等。