一 图像分类技术概述
1 核心目标
将不同图像划分为对应类别标签 最小化分类误差
2 图像分类的三个层次
通用多类别分类 基础场景如ImageNet任务
子类细粒度分类 区分更细粒度的类别如狗的品种而非仅动物
实例级分类 区分同一类别的不同个体如人脸识别
二 图像分类评估指标
1 基础指标
混淆矩阵 kk矩阵k为类别数 主对角线为正确分类数 非对角线为错误分类数
TPTrue PositiveFPFalse Positive
TNTrue NegativeFNFalse Negative
2 性能度量
准确率 Accuracy 正确预测数 总样本数
精确率 Precision 预测正类中实际正类的比例关注预测准确性
召回率 Recall 实际正类中被正确预测的比例关注覆盖能力
F1Score 精确率与召回率的调和平均数
3 可视化工具
PR曲线 横轴为召回率 纵轴为精确率 曲线下面积越大模型性能越好
注意 对数据不平衡敏感
4 多类别扩展
混淆矩阵扩展至kk形式 用于分析各类别间分类效果
三 深度学习模型关键概念
1 网络深度
定义 最长路径上的卷积层 全连接层数量
示例 LeNet网络包含5层C1C3C5F6Output
2 网络宽度
定义 每层通道数卷积层为主
示例 LeNet中C1层有6个通道 C3层有16个通道
四 小样本量问题的解决方案
1 问题场景
医疗影像 工业检测等领域因样本获取困难导致数据稀缺
2 应对策略
迁移学习 利用预训练模型如基于ImageNet的模型加速收敛
数据增强
有监督方法 平移 旋转 裁剪 缩放 调整亮度和对比度
无监督方法 使用GAN生成合成样本后再训练