图像分类的三层境界
1 通用多类别分类将图像划分到不同的大类如CIFAR10的10个类别
2 子类细粒度分类区分大类中的子类如不同品种的鸟类
3 实例级分类识别具体实例如区分不同个体的同一类物体
评估指标
混淆矩阵包括TPFP TNFN用于分析分类细节
精确率Accuracy模型整体预测正确的比例
准确率Precision正类预测中实际为正的比例
召回率Recall实际正类中被正确预测的比例
F1 ScorePrecision和Recall的调和平均数平衡二者关系
PR曲线展示不同阈值下Precision与Recall的变化面积越大模型越好
多类别混淆矩阵K×K矩阵主对角线表示正确分类数其余为错误数
模型设计关键参数
深度网络层数如LeNet为5层
宽度每层通道数如LeNet的C1层有6个通道
样本量不足的解决方案
迁移学习使用预训练模型如ImageNet加速收敛
数据增强
有监督方法平移翻转亮度调整裁剪缩放等
无监督方法通过GAN生成新样本
PyTorch实现要点
使用卷积神经网络CNN进行分类
网络架构需对齐设计如输入尺寸卷积核数量池化层等
数据预处理标准化Normalize数据增强如随机翻转裁剪
训练流程优化器选择SGD或Adam损失函数交叉熵学习率调度