卷积神经网络(CNN):原理、实现与应用
1. 引言
在许多任务中,如语音识别或自然语言处理(NLP),深度学习都展现出了强大的能力。不过,本文将聚焦于视觉应用领域。接下来,我们会探讨卷积神经网络(CNN)的起源、组成模块,以及如何使用TensorFlow和Keras来实现它们。同时,还会讨论一些优秀的CNN架构,以及其他视觉任务,如目标检测(对图像中的多个目标进行分类并绘制边界框)和语义分割(根据像素所属目标的类别对每个像素进行分类)。
2. 视觉皮层的结构
David H. Hubel和Torsten Wiesel在1958年和1959年对猫进行了一系列实验(几年后又对猴子进行了实验),这些实验为视觉皮层的结构提供了关键见解。他们发现,视觉皮层中的许多神经元具有小的局部感受野,即它们只对视野中有限区域内的视觉刺激做出反应。不同神经元的感受野可能会重叠,它们共同覆盖了整个视野。
此外,一些神经元只对水平线条的图像做出反应,而另一些则对不同方向的线条做出反应。他们还注意到,一些神经元具有更大的感受野,并且对由低级模式组合而成的更复杂模式做出反应。这些观察结果表明,高级神经元基于相邻低级神经元的输出。这种强大的架构能够检测视野中任何区域的各种复杂模式。
这些对视觉皮层的研究启发了1980年提出的神经认知机,它逐渐演变成了如今的卷积神经网络。1998年,Yann LeCun等人发表的论文引入了著名的LeNet - 5架构,该架构广泛用于识别手写支票号码。这个架构包含了一些我们熟悉的构建块,如全连接层和Sigmoid激活函数,同时还引入了两个新的构建块:卷积层和池化层。
为什么不直接使用具有全连接层的常规深度神经网络进行图
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



