LeNet-5:
LeNet-5是卷积神经网络的先驱,由Yann LeCun等人于1998年提出。它主要应用于手写数字识别,是深度学习在计算机视觉领域的开山之作。
主要特点和亮点:
-
卷积层和池化层: LeNet-5包括多个卷积层和池化层,这些层有助于提取图像中的特征,并逐渐减小特征图的尺寸。
-
全连接层: 在卷积和池化层之后,LeNet-5包括多个全连接层,用于最终的分类。
-
激活函数: LeNet-5使用Sigmoid作为激活函数,这在当时是常见的选择。
-
历史意义: LeNet-5为后来的卷积神经网络奠定了基础,尽管相对较小,但它在手写数字识别等任务中表现出色。
AlexNet:
AlexNet是由Alex Krizhevsky等人于2012年提出的模型,它在ImageNet图像分类竞赛中获得了显著的突破,标志着深度学习的崛起。
主要特点和亮点:
-
深度和宽度: AlexNet是一个相对较大且深的网络,包括多个卷积层、池化层和全连接层,共有60 million个参数。
-
ReLU激活函数: 引入了ReLU作为激活函数,提高了网络的非线性建模能力。
-
Dropout: 引入了Dropout正则化技术,有助于减轻过拟合问题。
-
局部响应归一化(Local Response Normalization): 用于增强网络的泛化性能。
-
并行计算: 利用多GPU进行并行计算,加速了训练过程。
VGGNet:
VGGNet是由牛津大学的研究团队提出的模型,以其简单而一致的结构而闻名。
主要特点和亮点:
-
统一结构: VGGNet采用了统一的卷积层结构,每个卷积块都由两个3x3的卷积层组成,这种结构在网络中重复使用。
-
深度: VGGNet包括16或19层的卷积层,相对较深,但结构简单。
-
小卷积核: 使用小的3x3卷积核,使得网络能够更好地捕获图像的细节特征。
-
参数少: 尽管深度,但由于统一的结构,参数数量相对较少。
-
容易实现: 由于简单的结构,VGGNet容易实现和调整。
ZF Net(Zeiler & Fergus Net):
ZF Net是由Matthew D. Zeiler和Rob Fergus于2013年提出的模型,它在当时的ImageNet图像分类竞赛中取得了非常好的成绩。ZF Net的核心特点在于它对于传统卷积神经网络架构的改进,尤其是在卷积层的设计上。
主要特点和亮点:
-
卷积层设计: ZF Net采用了一种称为"Deconvolution"的技术,实际上是反卷积(transpose convolution)操作,用于将高层特征图的信息反向传播到低层特征图。这有助于提高网络在不同尺度上的特征捕获能力。
-
深度和宽度: ZF Net相对于之前的卷积神经网络来说,更深且更宽。它具有8个卷积层,其中前面几层较浅,后面几层较深,这使得网络能够学习更复杂的特征。
-
学习可视化: ZF Net通过一种称为"Deconvnet"的技术,可以可视化卷积层的激活,帮助理解网络如何处理输入图像。
DenseNet(Densely Connected Convolutional Networks):
DenseNet是由Gao Huang、Zhuang Liu、Laurens van der Maaten和Kilian Q. Weinberger于2016年提出的模型。它的设计理念与传统的卷积神经网络截然不同,强调密集连接(Dense Connection)。
主要特点和亮点:
-
密集连接: 在DenseNet中,每个卷积层都与前面所有的层连接,这种密集连接的结构使得信息能够在网络中更容易地传递。这也有助于解决梯度消失问题,使得网络训练更加稳定。
-
稠密块: 网络的基本单元是稠密块(Dense Block),其中包含多个卷积层。在稠密块内,每一层都接收前面层的输出作为输入,然后将自己的输出传递给后续的层。
-
过渡层: 为了控制网络的宽度,DenseNet在稠密块之间引入了过渡层(Transition Block),它包括卷积层和池化层,用于减小特征图的尺寸和通道数。
-
高效和精确: DenseNet在使用相对较少的参数的情况下,取得了与其他更深、更大的模型相媲美的性能。它在图像分类、物体检测和语义分割等任务上都表现出色。
GoogLeNet(Inception):
GoogLeNet是由Google的研究团队于2014年提出的深度卷积神经网络模型,也被称为Inception网络。它在当时的ImageNet图像分类竞赛中表现出色,具有非常深的网络结构,并引入了Inception模块的概念。
主要特点和亮点:
-
Inception模块: GoogLeNet最显著的特点是使用了Inception模块,这是一个多分支的结构,每个分支使用不同大小的卷积核来捕获不同尺度的特征。这有助于提高网络的表征能力,同时保持计算效率。
-
1x1卷积层: 在Inception模块中,使用了1x1卷积层来降低通道数,从而减少参数量,提高网络的计算效率。
-
全局平均池化层: 在最后一层采用全局平均池化,将特征图的尺寸降为1x1,然后进行分类。这种方式减少了全连接层的参数数量。
-
多尺度特征提取: GoogLeNet通过Inception模块实现了多尺度的特征提取,使得网络能够捕获不同层次和大小的特征,有助于提高图像分类性能。
-
梯度消失问题的缓解: 通过1x1卷积层和全局平均池化,GoogLeNet缓解了梯度消失问题,使得网络训练更加稳定。
ResNet(残差网络):
ResNet是由微软研究院于2015年提出的深度卷积神经网络模型,它的主要创新是引入了残差块(Residual Block)的概念,从而允许构建非常深的神经网络。
主要特点和亮点:
-
残差块: ResNet的核心是残差块,每个残差块包含两个分支,一个是恒等映射(identity mapping),另一个是学习残差(residual)的映射。这种结构允许在网络的多个层次上学习残差,使得网络能够更轻松地训练得非常深。
-
跳跃连接: 残差块中的跳跃连接允许梯度直接传播到更深层,减轻了梯度消失问题,有助于训练非常深的网络。
-
深度: ResNet可以构建非常深的网络,比如ResNet-152,有152层的深度,而不会遇到梯度消失的问题。
-
Batch Normalization: ResNet广泛使用批归一化来加速训练过程,提高网络的泛化性能。
-
广泛应用: ResNet不仅在图像分类任务中表现出色,还在目标检测、语义分割等各种计算机视觉任务中取得了巨大成功。