一、常用视觉数据集
1.1 MNIST
-
手写数字识别数据集,共10类(0-9)。
-
图像大小28x28,灰度图。
-
包含60,000张训练图像和10,000张测试图像。
1.2 Fashion-MNIST
-
替代MNIST的时尚商品图像数据集。
-
类别包括T恤、裤子、鞋等10类。
-
同样是28x28灰度图,结构和划分与MNIST一致。
1.3 CIFAR-10
-
包含10类的60000张32x32彩色图像。
-
分为50000训练图像和10000测试图像。
1.4 PASCAL VOC
-
包含20类目标,广泛用于目标检测、分割、分类。
-
使用XML格式标注图像信息(如类别、位置等)。
-
常用版本为VOC2012。
1.5 MS COCO
-
包含80类目标,支持检测、分割、关键点标注。
-
超过33万张图像,20万张带标注。
-
多目标、多场景、实例分割支持,使用广泛。
1.6 ImageNet & JFT-300M
-
ImageNet:李飞飞团队提出,超1400万图像,支持21K类别。
-
JFT-300M:谷歌内部数据集,3亿图像,10亿标签,用于大规模图像分类训练。
二、模型评价指标
2.1 精确率(Precision)与召回率(Recall)
-
TP:真正例,FP:假正例,FN:假负例,TN:真负例。
-
Precision = TP / (TP + FP):判断正类的准确程度。
-
Recall = TP / (TP + FN):表示模型找出正类的能力。
-
Accuracy = (TP + TN) / (TP + TN + FP + FN):总体正确率。
2.2 P-R 曲线与平均精度(AP/mAP)
-
PR曲线展示Precision与Recall的权衡。
-
AP(Average Precision):PR曲线下的面积。
-
mAP(mean AP):多类别平均AP,用于目标检测性能综合评估。
三、目标检测与YOLO方法
3.1 目标检测问题
-
任务目标:在图像中定位并分类所有目标实例。
-
难点:多尺度、多类别、遮挡等。
3.2 目标检测方法演进
-
传统系列:R-CNN → SPPNet → Fast R-CNN → Faster R-CNN。
-
YOLO(You Only Look Once):
-
将检测任务转化为回归问题。
-
整张图像一次前向传递完成目标定位与分类。
-
实现端到端、速度快。
-
四、语义分割与全卷积网络(FCN)
4.1 FCN与DeepLab系列
-
FCN(Fully Convolutional Network):将全连接层转化为卷积层,实现像素级分类。
-
DeepLab v3:当前主流的语义分割模型,采用空洞卷积、CRF优化等技术。

被折叠的 条评论
为什么被折叠?



