计算机视觉中的图像分类与目标检测技术
1. 图像分类模型的发展
1.1 堆叠自编码器(Stacked Autoencoders)
在 21 世纪头十年中期,一系列有影响力的论文重新唤起了人们对多层神经网络的兴趣。这些论文提出了一种通过无监督技术对深度神经网络的隐藏层进行逐层预训练的新方法,先用于受限玻尔兹曼机,再用于自编码器。无监督预训练之后是用于分类任务的有监督微调阶段。这是一个突破,因为研究人员能够训练出一种新型的多层神经网络,重新点燃了人们对神经网络的兴趣。尽管几年后,深度神经网络的有监督技术很快占据主导地位,但 2006 年的这项工作被认为是人工智能研究的一个转折点。
1.2 AlexNet
2012 年,基于卷积神经网络(CNN)的 AI 模型 AlexNet 在 ImageNet 竞赛中获胜,这是第三个重大突破。研究人员使用有监督学习方法,在大量训练数据集上训练了一个具有大量神经元和多个隐藏层的 CNN。同时引入了如 ReLU 和 dropout 等有影响力的技术,极大地帮助了训练过程。还采用了数据增强技术,通过对训练图像进行变换来扩充训练数据。AlexNet 以第一作者(Geoffrey Hinton 的研究生)的名字命名,其架构由多个卷积层、部分卷积层后紧跟最大池化层,以及在 softmax 层之前的几个全连接层组成。这种架构对后续开发的架构产生了影响,其层名如 Conv5 和 FC6 在 AI 社区广为人知。自 2012 年起,一年一度的 ImageNet 竞赛为基于 AI 的计算机视觉研究提供了强大的动力。
1.3 VGG
2014 年的 ImageNet 竞赛模型 VGG 有 VGG -
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



