计算机视觉中的深度学习模型与技术
1. 经典卷积神经网络架构
在计算机视觉领域,有几种经典的卷积神经网络(CNN)架构发挥着重要作用。
1.1 VGG
VGG 架构于 2015 年发布,是对传统 CNN 架构的重大改进。它的结构如图 1 - 18 所示,包含 conv 1 到 conv 5 五个卷积块,每个卷积块使用 ReLU 激活函数,之后是最大池化层,最后连接 FC 6、FC 7 和 FC 8 全连接网络。
VGG 采用了 3x3 和 1x1 卷积核的组合。堆叠三个 3x3 卷积核比使用一个 7x7 卷积核在参数数量上更有优势。假设通道数为 C,3x3 卷积核的参数数量为 27C²,而 7x7 卷积核则为 49C²。虽然三个 3x3 卷积核堆叠后的感受野与一个 7x7 卷积核相同,但它具有更多自适应的卷积功能。
在模型结构上,VGG 遵循卷积块架构,有五个卷积块。随着特征图尺寸的减小,信息损失被控制在最小。每个卷积块之后的最大池化层用于减小特征图的维度。1x1 卷积起到混合特征图中所有特征的作用,可作为 z 轴降维技术,也可用于增加通道数,但实际中较少使用。
| 架构特点 | 描述 |
|---|---|
| 卷积块 | 5 个,使用 ReLU 激活 |
| 池化 | 最大池化 |
| 卷积核 | 3x3 和 1x |
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



