从全连接层到卷积神经网络：D2L项目中的图像处理革命

姚月梅Lane

于 2025-05-30 09:03:54 发布

阅读量307

点赞数 5

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00242/article/details/148323845

从全连接层到卷积神经网络：D2L项目中的图像处理革命

d2l-zh 《动手学深度学习》：面向中文读者、能运行、可讨论。中英文版被70多个国家的500多所大学用于教学。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-zh

在深度学习领域，卷积神经网络(CNN)已经成为处理图像数据的标准工具。本文将从技术角度深入探讨为什么我们需要从全连接层转向卷积层，以及这种转变如何解决图像处理中的关键问题。

全连接层的局限性

传统多层感知机(MLP)在处理表格数据时表现出色，但当面对高维感知数据（如图像）时，这种无结构的网络会变得难以处理。以一个简单的猫狗分类任务为例：

假设我们收集了100万像素(1MP)的标注照片数据集
每个输入样本就有100万个维度(1000×1000像素)
即使将隐藏层压缩到1000个神经元，也需要10^9(10亿)个参数

这样的参数量不仅训练成本高昂，而且需要海量的训练数据。然而现实中，人类和计算机都能很好地完成这类识别任务，这表明图像本身具有可以利用的特殊结构。

图像的两个关键特性

CNN的设计基于图像的两个本质特性：

1. 平移不变性(Translation Invariance)

物体识别系统不应过度关注物体在图像中的精确位置。无论猪出现在图像顶部还是底部，系统都应识别出它是猪。这种特性类似于"寻找瓦尔多"游戏——无论瓦尔多藏在图像的哪个位置，他的外观特征是不变的。

2. 局部性(Locality)

图像的早期特征提取应该关注局部区域，而不需要考虑图像遥远区域的内容。这些局部表征最终可以聚合起来进行整体图像预测。

从全连接层到卷积层的数学转变

让我们用数学形式化这些直觉。考虑一个处理二维图像的MLP：

输入X和隐藏表示H都是二维结构
传统MLP使用权重矩阵，现在需要改用四阶权重张量W
全连接层的数学表达可以转换为卷积形式

通过引入平移不变性假设，我们大大简化了参数需求——不再需要每个位置(i,j)都有独立的权重，而是共享同一组权重。这直接导出了卷积操作的定义：

H[i,j] = u + ∑∑ V[a,b]·X[i+a,j+b]

其中V[a,b]就是卷积核(或滤波器)，它比原始的四阶张量W要小得多。

卷积的严格定义

严格来说，数学中的卷积操作定义为：

(f*g)(i,j) = ∑∑ f(a,b)·g(i-a,j-b)

而我们之前的定义实际上是互相关(cross-correlation)操作。不过在深度学习中，我们通常将这种滑动窗口的加权求和操作统称为"卷积"。

多通道扩展

真实图像是三维张量(高度×宽度×通道)，因此我们需要扩展卷积操作：

H[i,j,d] = ∑∑∑ V[a,b,c,d]·X[i+a,j+b,c]

其中d表示输出通道索引。这种多通道设计让网络能够在每个空间位置捕获图像的多个方面特征。

卷积神经网络的优势

与传统全连接网络相比，CNN具有以下显著优势：

参数效率：从数十亿参数减少到数百万甚至数千
平移不变性：自动处理图像中的位置变化
局部感知：专注于图像的局部特征组合
层次结构：通过多层卷积逐步构建高级特征表示

总结

CNN通过系统性地利用图像的空间结构特性，实现了前所未有的效率和性能。从全连接层到卷积层的转变，不仅是参数形式的改变，更是对图像本质特性的深刻理解和利用。这种设计理念使得深度学习在计算机视觉领域取得了革命性进展。

理解这些基础原理对于后续学习更复杂的CNN架构至关重要。在接下来的学习中，我们将探讨如何组合多个卷积层、设计有效的网络架构，以及将这些技术应用于实际计算机视觉任务。

d2l-zh 《动手学深度学习》：面向中文读者、能运行、可讨论。中英文版被70多个国家的500多所大学用于教学。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-zh

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

姚月梅Lane 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。