卷积神经网络及其数据集、算法评估介绍

本文介绍了基本的卷积神经网络,如Alexnet、VGG-16和残差网络,及其特点。同时概述了常用的机器学习数据集如MNIST、FashionMNIST、CIFAR-10、PASCALVOC、MSCOCO和ImageNet,并讨论了算法评估中的关键指标如TP、FP、FN、TN、精确率、召回率和AP。
部署运行你感兴趣的模型镜像

一、基本卷积神经网络介绍

1、Alexnet

与LeNet不同,Alexnet网络一共有8层可学习层,分别是5层卷积层和3层全连接层。主要的改进体现在以下几个方面:(1)池化层均采用最大池化;(2)选用ReLU作为非线性环节的激活函数;(3)网络规模扩大,参数数量接近6000万;(4)出现“多个卷积层+一个池化层”的结构。(5)采用双GPU策略和Dropout策略防止过拟合现象。且普遍的规律是,随着宽和高的衰减、通道数增加。AlexNet网络结构如下图所示。
在这里插入图片描述

对于输入网络的样本,常用的数据变换策略有平移变换、反射变换、以及给图像增加一些随机的光照,即光照、色彩变换。如下图所示。
在这里插入图片描述

2、VGG-16

VGG-16网络的改进在于:(1)网络规模进一步增大,参数数量约为1.38亿;(2)由于各卷积层、池化层的超参数基本相同,整体结构呈现出规整的特点。其普遍规律在于,随着网络的高和宽衰减,通道数增多。
VGG-16的网络结构如下图所示。
在这里插入图片描述

3、残差网络

Alexnet、VGG-16都是非残差网络,但是非残差网络的有一定的缺陷,主要是测试集的loss可能不收敛,或者随着网络层数的增加,loss的降低速度会减慢,如下图所示。
在这里插入图片描述

残差网络的示意图如下,残差网络由残差块组成。
在这里插入图片描述

二、常用数据集介绍

1、MNIST数据集

MNIST数据集是由0-9手写数字图片和数字标签所组成的,由60000个训练样本和10000个测试样本组成,且每个样本都是一张28*28像素的灰度手写数字图片。如下图所示。
在这里插入图片描述

2、FashionMNIST数据集

FashionMNIST 是一个替代 MNIST 手写数字集 的图像数据集。
它是由Zalando旗下的研究部门提供,涵盖了来自10种类别的
共7万个不同商品的正面图片。
FashionMNIST 的大小、格式和训练集/测试集划分与原始的
MNIST 完全一致。60000/10000 的训练测试数据划分,28x28
的灰度图片。你可以直接用它来测试你的机器学习和深度学习
算法性能,且不需要改动任何的代码。

3、CIFAR-10数据集

CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每
个类有6000个图像。有50000个训练图像和10000个测试图像
数据集分为五个训练批次和一个测试批次,每个批次有10000
个图像。测试批次包含来自每个类别的恰好1000个随机选择的
图像

4、PASCAL VOC数据集

➢ PASCAL的全称是Pattern Analysis, Statistical Modelling and
Computational Learning
➢ VOC的全称是Visual Object Classes
➢ 目标分类(识别)、检测、分割最常用的数据集之一
➢ 第一届PASCAL VOC举办于2005年,2012年终止。常用的是
PASCAL 2012

5、MS COCO数据集

➢ PASCAL的全称是Microsoft Common Objects in Context,起源
于微软于2014年出资标注的Microsoft COCO数据集
➢ 数据集以scene understanding为目标,主要从复杂的日常场景中
截取
➢ 包含目标分类(识别)、检测、分割、语义标注等数据集
➢ ImageNet竞赛停办后,COCO竞赛就成为是当前目标识别、检
测等领域的一个最权威、最重要的标杆
➢ 官网:http://cocodataset.org

6、ImageNet数据集

➢ 始于2009年,李飞飞与Google的合作:
“ImageNet: A Large-Scale Hierarchical Image Database”
➢ 总图像数据:14,197,122
➢ 总类别数:21841
➢ 带有标记框的图像数:1,034,908

三、算法评估

首先给出算法评估的相关概念

1、TP\FP\FN\TN

TP: 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数
FP: 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数
FN:被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数
TN: 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数
混淆矩阵:
在这里插入图片描述

2、P-R曲线

P(精确率):𝑇𝑃/(𝑇𝑃+𝐹𝑃),标识“挑剔”的程度
R(召回率): 𝑇𝑃/(𝑇𝑃+𝐹𝑁)。召回率越高,准确度越低
标识“通过”的程度
精度(Accuracy): (𝑇𝑃+𝑇𝑁)/(𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁)
P-R的关系曲线图,表示了召回率和准确率之间的关系
在这里插入图片描述

3、AP计算

➢ mAP:均值平均准确率
AP=ΣP(k)Δr(k)AP=ΣP(k)Δr(k)AP=ΣP(k)Δr(k)
其中𝑁代表测试集中所有图片的个数,𝑃(𝑘)表示在能识别出𝑘个图片的时候Precision的值,而 Δ𝑟(𝑘)则表示识别图片个数从𝑘−1变化到𝑘时(通过调整阈值)Recall值的变化情况。

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值