【CNN感受野计算】python 示例含盖 vgg alexnet rtpose等

博客主要介绍了感受野的计算方法。以多层卷积层为例,详细说明了每层感受野大小的计算过程,如第一层感受野为卷积核大小,后续层根据前层感受野和当前层卷积核、步长计算。还提到pool层按卷积层同理计算,并给出了计算感受野的公式,最后涉及Python代码实现。

一、感受野

      layer 1 : kernel size:3*3 stride:1

      layer2 :kernel size:3*3 stride:1

      第一层的感受野就是卷积核大小 3*3 ,第二层感受野是5*5

      这个也比较好理解,对于第一层计算之后的feature map而言,每一个pixel都对应了layer1的input的3*3大小的区域;

      第二层的输出也是同理,但是第二层的输入本身携带了3*3的感受野,那么在第二层这个3*3的最中心那个位置就是上一次感受野的区域结果,相当于向外扩展(上下左右)了1个pixel,因此为5*5

      如果这个时候,再来一个layer3:kernel size:5*5 stride:2

      再来个layer4:kernel size:3*3 stride:1

      那么此时第三层的感受野就是5+(5-1)*1=9,第四层为9+(3-1)*2=13

      ***pool层也按照卷积层同理计算就行了

二、公式

                                             

                   其中l_k-1是第k-1层的感受野大小,而f_k是当前层的卷积核大小,s_i是第i层的步长。

三、python代码

alexnet=[
    [[3, 96, 11, 4, 0],
    [3,2,0],
    [96, 256, 5, 1, 2],
    [3,2,0],
    [256,384, 3, 1, 1],
    [384,384, 3, 1, 1],
    [384,256, 3, 1, 1],
    [3,2,0]]


]
vgg16=[
    [[3, 64, 3, 1, 1],
     [64, 64, 3, 1, 1],
    [2,2,0],
    [64, 128, 3, 1, 1],
[128, 128, 3, 1, 1],
    [2,2,0],
    [128,256, 3, 1, 1],
[256,256, 3, 1, 1],
[256,256, 3, 1, 1],
[2,2,0],
[256,512, 3, 1, 1],
[512,512, 3, 1, 1],
[512,512, 3, 1, 1],
[2,2,0],
[512,512, 3, 1, 1],
[512,512, 3, 1, 1],
[512,512, 3, 1, 1],
[2,2,0]]
]
net = [[ [3, 64, 3, 1, 1],
               [64, 64, 3, 1, 1],
               [2, 2, 0],
               [64, 128, 3, 1, 1],
               [128, 128, 3, 1, 1],
               [2, 2, 0],
               [128, 256, 3, 1, 1],
               [256, 256, 3, 1, 1],
               [256, 256, 3, 1, 1],
               [256, 256, 3, 1, 1],
               [2, 2, 0],
               [256, 512, 3, 1, 1],
               [512, 512, 3, 1, 1],
               [512, 256, 3, 1, 1],
               [256, 128, 3, 1, 1]]]

net.append( [[128, 128, 3, 1, 1],
                      [128, 128, 3, 1, 1],
                      [128, 128, 3, 1, 1],
                      [128, 512, 1, 1, 0],
                      [512, 38, 1, 1, 0]])

for i in range(2, 7):
    net.append([
        [185, 128, 7, 1, 3],
        [128, 128, 7, 1, 3],
        [128, 128, 7, 1, 3],
         [128, 128, 7, 1, 3],
        [128, 128, 7, 1, 3],
        [128, 128, 1, 1, 0],
        [128, 38, 1, 1, 0]
    ])

#!!!!!这里的rf_k_1每次根据需要的网络换成第一层的卷积核大小!!!!!!
stride_all_k_1=1
rf_k_1=3
flag=0
count=0
net_to_caculated=vgg16
for stage in range(len(net_to_caculated)):
    #print(net[stage])
    print("stage: ",stage)
    for layer in net_to_caculated[stage]:
        if flag==0:
            if len(layer)==5:
                rf=rf_k_1
                stride_all_k_1=stride_all_k_1*layer[3]
            else:
                rf = rf_k_1
                stride_all_k_1 = stride_all_k_1 * layer[1]
            flag=1
        else:
            if len(layer) == 5:
                rf=rf_k_1+(layer[2]-1)*stride_all_k_1
                stride_all_k_1=stride_all_k_1*layer[3]
            else:
                rf = rf_k_1 + (layer[0] - 1) * stride_all_k_1
                stride_all_k_1 = stride_all_k_1 * layer[1]
            rf_k_1=rf
        print("layer ",count," receptive field: ",rf)
    print("stage ",stage," receptive field:",rf)

 

<think>根据用户要求,我们需要构建一个基于VGGCNN模型示例代码。VGG模型的特点是使用重复的小卷积核堆叠深度,典型结构包多个卷积后接池化,最后连接全连接。这里以VGG-16为例(16个权重:13个卷积+3个全连接),注意实际实现中可能包ReLU激活函数、Dropout等。为方便用户理解,我们使用TensorFlow/Keras实现一个简化的VGG-16模型(实际VGG-16包更多参数)。模型结构如下:1.两组23x3卷积(64个滤波器)+2x2最大池化2.两组23x3卷积(128->256滤波器)+2x2最大池化3.三组33x3卷积512滤波器)+2x2最大池化(每组后接一个池化)4.3个全连接(4096,4096,1000)最后使用softmax注意:输入图像通常为224x224x3(RGB),但实际应用中可以调整。全连接之前需要将特征图展平(Flatten)。由于完整的VGG-16参数过多(约1.38亿参数),示例代码仅展示结构,实际使用时建议用预训练模型(如`tf.keras.applications.VGG16`)。下面是自定义VGG-16的简化代码:```pythonfromtensorflow.kerasimportlayers,modelsdefbuild_vgg16(input_shape=(224,224,3),num_classes=1000):model=models.Sequential()#Block1:两个卷积,64个滤波器model.add(layers.Conv2D(64,(3,3),padding=&#39;same&#39;,activation=&#39;relu&#39;,input_shape=input_shape))model.add(layers.Conv2D(64,(3,3),padding=&#39;same&#39;,activation=&#39;relu&#39;))model.add(layers.MaxPooling2D((2,2),strides=2))#Block2:两个卷积,128个滤波器model.add(layers.Conv2D(128,(3,3),padding=&#39;same&#39;,activation=&#39;relu&#39;))model.add(layers.Conv2D(128,(3,3),padding=&#39;same&#39;,activation=&#39;relu&#39;))model.add(layers.MaxPooling2D((2,2),strides=2))#Block3:三个卷积256个滤波器for_inrange(3):model.add(layers.Conv2D(256,(3,3),padding=&#39;same&#39;,activation=&#39;relu&#39;))model.add(layers.MaxPooling2D((2,2),strides=2))#Block4:三个卷积512个滤波器for_inrange(3):model.add(layers.Conv2D(512,(3,3),padding=&#39;same&#39;,activation=&#39;relu&#39;))model.add(layers.MaxPooling2D((2,2),strides=2))#Block5:三个卷积512个滤波器for_inrange(3):model.add(layers.Conv2D(512,(3,3),padding=&#39;same&#39;,activation=&#39;relu&#39;))model.add(layers.MaxPooling2D((2,2),strides=2))#全连接model.add(layers.Flatten())model.add(layers.Dense(4096,activation=&#39;relu&#39;))model.add(layers.Dropout(0.5))#原始VGG有Dropoutmodel.add(layers.Dense(4096,activation=&#39;relu&#39;))model.add(layers.Dropout(0.5))model.add(layers.Dense(num_classes,activation=&#39;softmax&#39;))returnmodel#构建模型实例model=build_vgg16(num_classes=1000)model.summary()#打印模型结构```注意事项:1.实际VGG-16在每个卷积后都有ReLU激活函数。2.全连接使用Dropout防止过拟合。3.该自定义模型参数数量庞大(>1亿),训练需要大量计算资源,建议在GPU环境下运行或使用迁移学习。如果用户数据类别不是1000,只需修改`num_classes`参数。对于不同大小的输入图像,需要调整`input_shape`(但VGG设计为224x224)。相关问题:1.如何加载预训练的VGG-16模型?2.VGG模型在训练时有哪些调优技巧?3.与ResNet等现代架构相比,VGG有什么优缺点?</think> ### 基于 VGGCNN 模型构建示例 以下是使用 TensorFlow/Keras 实现简化版 VGG-16 模型的代码示例(完整版 VGG-16 包 16 个权重): ```python from tensorflow.keras import layers, models def build_vgg(input_shape=(224, 224, 3), num_classes=1000): model = models.Sequential() # Block 1: 两个64通道的3x3卷积 model.add(layers.Conv2D(64, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;, input_shape=input_shape)) model.add(layers.Conv2D(64, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.MaxPooling2D((2, 2), strides=2)) # Block 2: 两个128通道的3x3卷积 model.add(layers.Conv2D(128, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.Conv2D(128, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.MaxPooling2D((2, 2), strides=2)) # Block 3: 三个256通道的3x3卷积 model.add(layers.Conv2D(256, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.Conv2D(256, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.Conv2D(256, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.MaxPooling2D((2, 2), strides=2)) # Block 4: 三个512通道的3x3卷积VGG-16典型结构) model.add(layers.Conv2D(512, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.Conv2D(512, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.Conv2D(512, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.MaxPooling2D((2, 2), strides=2)) # Block 5: 三个512通道的3x3卷积 model.add(layers.Conv2D(512, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.Conv2D(512, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.Conv2D(512, (3, 3), activation=&#39;relu&#39;, padding=&#39;same&#39;)) model.add(layers.MaxPooling2D((2, 2), strides=2)) # 全连接部分 model.add(layers.Flatten()) model.add(layers.Dense(4096, activation=&#39;relu&#39;)) model.add(layers.Dropout(0.5)) model.add(layers.Dense(4096, activation=&#39;relu&#39;)) model.add(layers.Dropout(0.5)) model.add(layers.Dense(num_classes, activation=&#39;softmax&#39;)) return model # 构建模型(1000类分类任务) vgg_model = build_vgg(num_classes=1000) vgg_model.summary() ``` ### 关键实现细节: 1. **结构特点**: - 使用小尺寸$3\times3$卷积核堆叠替代大卷积核 - 每个卷积块后接$2\times2$最大池化 - 网络深度显著增加(16个权重2. **参数配置**: - 输入尺寸:$224\times224\times3$(RGB图像) - 卷积:全部使用`padding=&#39;same&#39;`保持空间尺寸 - 激活函数:ReLU非线性激活 - 全连接:包Dropout正则化(防止过拟合)[^1] 3. **实际使用建议**: ```python # 加载预训练权重(避免从头训练) from tensorflow.keras.applications import VGG16 vgg = VGG16( weights=&#39;imagenet&#39;, # ImageNet预训练权重 input_shape=(224, 224, 3), include_top=False # 是否包分类器 ) # 自定义分类 x = layers.Flatten()(vgg.output) x = layers.Dense(256, activation=&#39;relu&#39;)(x) predictions = layers.Dense(10, activation=&#39;softmax&#39;)(x) custom_model = models.Model(inputs=vgg.input, outputs=predictions) ``` ### VGG模型特性总结: 1. **深度优势**:通过增加网络深度提升特征提取能力(多个小卷积核等效于大感受野)[^1] 2. **参数效率**:$n$个$3\times3$卷积感受野等价于单个$(2n+1)\times(2n+1)$卷积,但参数更少 3. **设计规则**:通道数从64开始,每经过池化翻倍($64 \to 128 \to 256 \to 512$) [^1]: VGG 模型验证了在图像识别任务中,增加网络深度可以显著提高模型的性能 [^2]: VGG-16 和 VGG-19 是最常用的变体
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值