CNN 常用网络结构解析 && 1x1 卷积运算 示意图

AlexNet 网络结构:

在这里插入图片描述

VGG :
conv3x3、conv5x5、conv7x7、conv9x9和conv11x11,在224x224x3的RGB图上(设置pad=1,stride=4,output_channel=96)做卷积,卷积层的参数规模和得到的feature map的大小如下:
在这里插入图片描述

卷积神经网络基本计算原理
http://m.elecfans.com/article/691826.html

大卷积核带来的特征图和卷积核的参数量并不大,无论大的卷积核还是小的,对参数量来说影响不大甚至持平;增大的反而是卷积的计算量。同样stride下,不同卷积核大小的特征图和卷积参数差别不大;越大的卷积核计算量越大。

2个3x3的卷积堆叠获得的感受野大小,相当1层5x5的卷积;而3层的3x3卷积堆叠获取到的感受野相当于一个7x7的卷积

小卷积核比用大卷积核的三点优势:更多的激活函数、更丰富的特征,更强的辨别能力,卷积后都伴有激活函数,更多的卷积核的使用可使决策函数更加具有辨别能力,此外就卷积本身的作用而言,3x3比7x7就足以捕获特征的变化:3x3的9个格子,最中间的格子是一个感受野中心,可以捕获上下左右以及斜对角的特征变化。主要在于3个堆叠起来后,三个3x3近似一个7x7,网络深了两层且多出了两个非线性ReLU函数,(特征多样性和参数参数量的增大)使得网络容量更大(关于model capacity,AlexNet的作者认为可以用模型的深度和宽度来控制capacity),对于不同类别的区分能力更强(此外,从模型压缩角度也是要摒弃7x7,用更少的参数获得更深更宽的网络,也一定程度代表着模型容量,后人也认为更深更宽比矮胖的网络好);

内核大小为1x1的卷积

在这里插入图片描述
上面是一个 1x1 卷积核的输出示意图, 如果是 K 个1x1 卷积核,那么 结果就是 将通道数由 D 变为 K 降维或升维
在这里插入图片描述
特征通道数变化: 256 —> 64 —> 256

VGG比较神奇的一个特点就是“全连接转卷积”
在这里插入图片描述

11

### 卷积运算图解示例 在深度学习中,卷积操作通常用于提取输入数据的空间特征。对于单通道的二维图像,卷积过程涉及滑动一个小矩阵(称为卷积核或滤波器)跨过整个输入矩阵,并计算该区域内的逐元素乘法之和。 #### 单通道二维卷积示例 当执行带有偏置项的单通道二维卷积时,红色方框所标注的部分表示当前正在处理的位置,其中心位置决定了输出矩阵对应单元格的值。具体来说,在这个位置上的每一个像素都会与相应的权重相乘并求和,再加上一个可选的偏置参数作为最终结果的一部分[^1]。 ```plaintext Input Image (Single Channel, 2D): | a b c | | d e f | | g h i | Convolution Kernel: | j k l | | m n o | | p q r | Output Value at Center Position of Red Box: (a*j + b*k + c*l) + (d*m + e*n + f*o) + (g*p + h*q + i*r) + bias ``` 此过程中产生的数值构成了新特征映射的一个点,随着卷积窗口继续移动直到覆盖全部输入空间,则可以构建完整的特征映射。 #### 多个卷积核的应用 如果应用多个不同的卷积核到同一张图片上,则会产生多张不同类型的特征映射。这些额外的地图能够捕捉更多种类的信息,比如纹理方向或者颜色变化模式等特性[^3]。 为了更直观地了解这一概念,下面提供了一个简单的图形解释: ![A simple diagram showing how convolution works with one kernel](https://miro.medium.com/max/700/1*KLMgGzZVJtX9jW8QnUcYOA.png) 在这个例子中可以看到,卷积核是如何遍历输入图像的不同部分来进行计算,并生成新的特征映射。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值