图像分类
将不同的图像,划分到不同的类别标签,实现最小的分类误差。
图像分类的三层境界
通用的多类别图像分类:将图像分为不同的大类,如飞机、汽车、鸟、猫等。这种分类相对宽泛,关注图像所属的主要类别。
子类细粒度图像分类:在大类的基础上进一步细分,例如区分不同种类的猫或鸟。这需要识别图像中更细微的特征差异。
实例级图片分类:识别图像中的具体实例,如特定的一只猫或某一个人。
图像分类评估指标之混淆矩阵
TP(True positive,真正例)——将正类预测为正类数。
FP(False postive,假正例)——将反类预测为正类数。
TN(True negative,真反例)——将反类预测为反类数。
FN(False negative,假反例)——将正类预测为反类数。
图像分类评估指标
混淆矩阵:通过TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例)这几个关键指标,构建混淆矩阵,清晰展示模型在各类别预测中的正误情况。
精确率(Accuracy):是常用的分类性能指标,计算方式为模型识别正确的个数除以样本总个数,精确率越高,模型整体效果越好。
准确率(Precision)与召回率(Recall):准确率表示模型识别为正类的样本中真正正类的比例;召回率是模型正确识别出的正类样本数占总正类样本数的比值。
F1_Score:综合考虑了准确率和召回率,是二者的调和平均数,能更全面地评估模型性能。
P - R曲线与ROC曲线:P - R曲线展示了召回率和精度之间的权衡关系,曲线下面积越大,模型性能越好,但对正负样本不均衡敏感;ROC曲线以FPR(假正例率)为横坐标,TPR(真正例率)为纵坐标,不受正负样本分布变化影响,对样本不均衡问题不敏感。
模型基本概念
网络的深度:指深度学习模型中最长路径的卷积层与全连接层数量之和,如LeNet网络深度为5层。网络深度影响模型对数据特征的提取能力,通常较深的网络能学习到更复杂的特征。
LeNet网络,C1+C3+C5+F6+Output共5层
网络的宽度:指每一个网络层的通道数,以卷积网络层计算,LeNet网络中C1层通道数为6,C3层为16。网络宽度影响模型的信息处理能力,较宽的网络可以并行处理更多信息。
样本量过少问题及解决方案
在图像分类中,样本获取困难会导致样本量极少,在工业产品检测和医疗影像分析等领域较为常见,影响模型训练效果和泛化能力。
解决方案:迁移学习利用在大规模通用数据集(如ImageNet)上预训练的模型,加速模型收敛,减少训练时间和样本需求;数据增强通过有监督(平移、翻转、调整亮度对比度等)和无监督(如GAN网络生成样本)的方法,扩充样本数量,提升模型鲁棒性。